Question 1

¿Qué es una coincidencia aproximada al comparar CSVs?

Accepted Answer

Una coincidencia aproximada es cuando dos filas deberían referirse al mismo registro pero no son idénticas byte a byte ni siquiera tras normalizar espacios, mayúsculas y tildes. Por ejemplo, 'Acme Corp' vs 'Acme Corporation', o 'Johnatan' vs 'Jonathan'. MessyMatch las marca en la pestaña Coincidencias aproximadas con la puntuación de similitud y el motivo.

Question 2

¿Qué algoritmo usa el matcher aproximado?

Accepted Answer

Similitud Jaro-Winkler con un umbral configurable (0.92 por defecto). Para mantenerse rápido en archivos grandes, el motor también usa blocking. Sólo se puntúan los candidatos que comparten prefijo o caen dentro de una banda de longitud. Así no compara cada fila de A contra cada fila de B.

Question 3

¿Puedo ajustar lo estricta que es la coincidencia?

Accepted Answer

Sí. Baja el umbral de similitud para capturar coincidencias más laxas (más resultados, más falsos positivos). Súbelo para ver sólo coincidencias muy cercanas. El umbral está en el panel de compare settings junto a las reglas de limpieza.

Question 4

¿Encontrará typos la coincidencia aproximada?

Accepted Answer

Sí, ese es el caso de uso principal. Typos de una letra, caracteres transpuestos, errores comunes en nombres y empresas. Todos salen como casi-coincidencias. Cada resultado muestra ambos valores originales para que decidas si fusionar.

Question 5

¿Es la coincidencia aproximada más lenta que la exacta?

Accepted Answer

Sí. Puntúa pares candidatos en lugar de hashear en un mapa. Blocking + pre-filtro de longitud la mantienen tratable hasta unas 50.000 filas por lado en un portátil normal. Más allá, reduce el conjunto candidato con una comparación por columna clave primero y aplica aproximación sólo a los pendientes.

Question 6

¿Se suben mis archivos para la coincidencia aproximada?

Accepted Answer

No. El scoring Jaro-Winkler corre en tu navegador mediante un Web Worker. El contenido del archivo se procesa en tu navegador con un Web Worker y no se transmite a nuestros servidores.

Question 7

¿En qué se diferencia esto de BUSCARV con verdadero?

Accepted Answer

BUSCARV con coincidencia aproximada asume que la columna lookup está ordenada ascendentemente y devuelve el valor inmediatamente inferior, lo que es incorrecto para texto casi-igual. MessyMatch usa scoring de similitud de strings diseñado para datos humanos sucios. Nombres, empresas, direcciones. No para rangos numéricos ordenados.

Coincidencia aproximada en CSV online.

Cuando la coincidencia exacta no basta

Cómo funciona el matcher aproximado

Haz siempre la normalización barata primero

Casos de uso habituales para coincidencia aproximada en CSV

Límites honestos de la coincidencia aproximada

Browser-first por diseño

Herramientas relacionadas

Preguntas frecuentes