Comparar CSV ignorando espacios, tildes y mayúsculas.
Encuentra filas que realmente faltan frente a filas que sólo difieren por formato. Activa las reglas de limpieza para normalizar antes de comparar — y verás sólo diferencias reales.
Por qué las diferencias de formato esconden los desajustes reales
Dos filas que a un humano le parecen idénticas pueden no coincidir en un diff plano porque una tiene un espacio al final, otra usa una tilde, o las mayúsculas son distintas entre los sistemas que exportaron cada archivo. Un diff ingenuo a nivel de byte te dirá que todo es distinto y enterrará los cambios reales bajo cientos de falsos positivos. Las diferencias interesantes — un pedido que falta, un precio cambiado, un contacto eliminado — se pierden en el ruido.
Las reglas de limpieza en MessyMatch normalizan los valores antes de comparar. Tú eliges qué normalizaciones aplicar: quitar espacios, colapsar espacios, quitar tildes, ignorar mayúsculas, normalizar emails, normalizar teléfonos, quitar ceros a la izquierda y más. Los originales se preservan en el resultado — la forma normalizada se usa sólo para emparejar.
Cómo funciona la pipeline de reglas de limpieza
Cada celda de ambos archivos pasa por las reglas de limpieza que activaste, en un orden fijo. La salida es una cadena normalizada que se usa como clave de comparación. Dos filas se consideran coincidentes cuando sus claves normalizadas son iguales — aunque los valores en crudo difieran en espacios, mayúsculas o tildes. Los valores originales de las celdas siguen siendo lo que ves en el export.
Las reglas son componibles. Puedes apilar 'quitar espacios + colapsar espacios + ignorar mayúsculas + ignorar tildes' para campos de texto libre y 'normalizar emails' en la columna de email. El panel de reglas de limpieza mantiene los toggles obvios para que ajustes el nivel de estrictez adecuado para tus datos.
Normalizaciones disponibles
- Quitar espacios al final y al principio
- Colapsar varios espacios en uno
- Quitar caracteres invisibles (espacios de anchura cero, espacios duros)
- Ignorar mayúsculas/minúsculas — tratar JOSE y jose como iguales
- Ignorar tildes — tratar Jose y José como iguales
- Ignorar puntuación — útil para códigos y nombres
- Ignorar separadores (guiones, barras) — AB-123 = AB123
- Normalizar emails (a minúsculas, quitar paréntesis)
- Normalizar teléfonos (sólo dígitos y + al principio)
- Quitar ceros a la izquierda — 00123 = 123
El cajón de 'coincidencias aproximadas': donde va el formato sucio
Las reglas de limpieza cubren la mayoría del ruido pero no todo. 'Johnatan' vs 'Jonathan', 'Acme Corp' vs 'Acme Corporation' — esas no son coincidencias exactas ni siquiera tras quitar espacios e ignorar mayúsculas. Para esas, el pase de aproximación puntúa pares con similitud Jaro-Winkler y marca cualquiera por encima del umbral como coincidencia aproximada, con la puntuación y el motivo. Puedes leer más sobre el modo aproximado en la página de coincidencia aproximada en CSV.
Modo diagnóstico: ve qué cambió y por qué
Cuando una fila se marca como coincidencia aproximada, el panel de resultados muestra qué reglas de limpieza hicieron converger los valores y qué diferencia quedó. Ese diagnóstico — tilde quitada, caso plegado, cero a la izquierda eliminado — es lo que te dice si aceptar la coincidencia o tratarla como diferencia real. Es lo opuesto a opaco: cada resultado es auditable.
Los originales nunca se modifican
Las reglas de limpieza se aplican en memoria durante la comparación. Las cadenas en el dataset parseado nunca se mutan, y los exports siempre llevan los valores originales. Si quieres una versión limpia de los datos, eso es otra operación distinta — esta herramienta va de comparar de forma fiable, no de reescribir tu archivo.
Browser-first por diseño
El contenido del CSV se procesa en tu navegador con un Web Worker y no se transmite a nuestros servidores. Nuestros servidores no tienen un endpoint que reciba los datos del archivo — el Web Worker lee el archivo desde el disco, ejecuta la comparación localmente y devuelve el resultado al navegador. Sólo registramos metadatos de la operación (número de filas, tamaño, formato, tiempo) para los límites antiabuso. Mira la política de privacidad para la lista completa.
Herramientas relacionadas
Preguntas frecuentes
¿Qué significa exactamente 'ignorar formato'?+
Las reglas de limpieza normalizan cada valor antes de comparar: quitan espacios, colapsan espacios internos, pasan a minúsculas, quitan tildes, eliminan puntuación y caracteres invisibles. Los valores originales se mantienen y se muestran en los resultados.
¿Modificará mis archivos?+
No. La normalización se aplica sólo en memoria durante la comparación. Los originales nunca se alteran.
¿Detecta typos?+
Sí, aproximadamente. La coincidencia aproximada (Jaro-Winkler con blocking) encuentra valores que parecen cercanos entre sí incluso cuando no son idénticos byte a byte tras la limpieza.
¿Se suben mis datos?+
No. Los archivos se parsean en tu navegador mediante un Web Worker y nunca se envían a nuestros servidores.
¿Puedo ignorar ceros a la izquierda en IDs?+
Sí. Activa 'quitar ceros a la izquierda' para que '000123' y '123' se traten como el mismo valor.
¿Puedo comparar números de teléfono en formatos distintos?+
Sí. La regla 'normalizar teléfonos' quita espacios, guiones y variaciones de prefijo de país antes de comparar.