Encontrar duplicados en un archivo CSV online.

Suelta tu CSV para detectar filas repetidas por columna clave — emails, IDs, números de pedido, SKUs. Ignora mayúsculas, espacios y tildes para que el formato sucio no oculte duplicados reales. Se ejecuta en tu navegador.

Archivo A
Suelta aquí el archivo A
CSV, TSV, TXT o XLSX
Archivo B
Suelta aquí el archivo B
CSV, TSV, TXT o XLSX

¿Cuándo necesitas encontrar duplicados en un CSV?

Los duplicados se cuelan en los CSV de mil maneras distintas. Un export que se ejecutó dos veces, un formulario que no validó el campo email, un join que se infló, un pegado manual desde dos fuentes. Cuando el archivo llega a tu CRM, ERP o herramienta de email, el mismo cliente aparece tres veces con grafías ligeramente distintas y la importación o bien falla ruidosamente o — peor — tiene éxito y triplica tu base de contactos.

La forma más rápida de cazarlos es escanear el archivo en busca de valores repetidos en la columna que se supone única por fila. Esa columna casi siempre es obvia en retrospectiva: email para una lista de suscriptores, customer_id para un export de CRM, número de pedido para un informe de ventas, SKU para un catálogo de productos.

  • Listas de suscriptores — el mismo email introducido por web + formulario + import
  • Exports de CRM — contactos duplicados por reglas de sync que se ejecutan dos veces
  • Informes de ventas — el mismo pedido apareciendo en dos regiones
  • Catálogos de productos — el mismo SKU listado por dos proveedores
  • Respuestas de encuestas — el mismo encuestado respondiendo más de una vez
  • Archivos de migración — sistema viejo y nuevo volcados en un mismo CSV

Cómo funciona la detección de duplicados

MessyMatch parsea tu archivo en el navegador, normaliza cada valor con las reglas de limpieza que activaste, y luego agrupa filas por la columna clave que elegiste. Cualquier clave que apunte a más de una fila es un grupo de duplicados — el panel de resultados muestra cada fila del grupo en paralelo para que elijas la canónica.

El motor de comparación expone los duplicados como una pestaña dedicada en el panel de resultados: Duplicados dentro de A y Duplicados dentro de B, separados del diff cruzado entre archivos. Esa separación importa: te permite arreglar los duplicados dentro de un archivo antes de reconciliarlo contra otro sistema. Suelta el mismo CSV en los dos slots si quieres un dedupe intra-archivo puro y no te importa la comparación cruzada.

Ignora el formato que finge duplicados

La mayoría de duplicados en CSV no parecen duplicados a primera vista porque una fila tiene un espacio al final, otra tiene el nombre en mayúsculas, una tercera usa una tilde. Las reglas de limpieza en MessyMatch normalizan los valores antes de agrupar: quitan espacios, colapsan espacios internos, ignoran mayúsculas, quitan tildes, normalizan emails y teléfonos, eliminan caracteres invisibles. Los valores originales se mantienen intactos en el resultado, así sigues viendo exactamente lo que había en tu archivo.

Duplicados aproximados: cuando las claves no coinciden exactamente

A veces el duplicado no está en la columna clave sino en una columna de nombre o empresa que se ha tecleado ligeramente distinta cada vez. Para esos casos, activa la coincidencia aproximada. El motor usa similitud de Jaro-Winkler con blocking, así 'Acme Corp', 'Acme Corporation' y 'ACME corp.' se agrupan como casi-duplicados en la pestaña Coincidencias aproximadas con la puntuación de similitud y el motivo.

Exporta el CSV deduplicado

Cada sección del resultado tiene su propia exportación. Descarga los duplicados como CSV para devolverlos a tu sistema origen (la mayoría de CRMs y ERPs aceptan un archivo de borrado por ID), o coge las filas únicas como tu nuevo dataset deduplicado. Ambos exports preservan los valores originales — las reglas de limpieza sólo se usan para detectar los duplicados, nunca para reescribir tus datos.

Browser-first por diseño

El contenido del CSV se procesa en tu navegador con un Web Worker y no se transmite a nuestros servidores. Nuestros servidores no tienen un endpoint que reciba los datos del archivo — el Web Worker lee el archivo desde el disco, ejecuta el dedupe localmente y devuelve el resultado al navegador. Sólo registramos metadatos de la operación (número de filas, tamaño, formato, tiempo) para los límites antiabuso. Mira la política de privacidad para la lista completa.

Herramientas relacionadas

Preguntas frecuentes

¿Cómo encuentro duplicados dentro de un único archivo CSV?+

Suelta tu archivo en el slot A. Para centrarte sólo en duplicados intra-archivo, suelta el mismo archivo en el slot B y ejecuta la comparación — la pestaña Duplicados en los resultados lista todas las claves que aparecen más de una vez dentro del archivo A y dentro del archivo B por separado.

¿Qué cuenta como fila duplicada?+

Por defecto, dos filas son duplicadas si todas las celdas coinciden tras las reglas de limpieza que activaste. En modo columna clave, las filas son duplicadas cuando su columna clave se repite — incluso si las demás columnas difieren.

¿Puedo ignorar mayúsculas o espacios sobrantes al buscar duplicados?+

Sí. Activa quitar espacios, ignorar mayúsculas, ignorar tildes, normalizar emails o normalizar teléfonos en las reglas de limpieza. 'José García', 'jose garcia' y 'JOSE GARCIA ' se agruparán como un solo registro.

¿Puedo exportar la lista deduplicada?+

Sí. Cada sección del resultado — incluyendo duplicados y las filas canónicas 'en ambos' — tiene un botón de exportar a CSV y XLSX. Descarga el conjunto deduplicado o sólo los duplicados, según lo que necesites.

¿Se suben mis archivos CSV para encontrar los duplicados?+

No. El parseo y la detección de duplicados ocurren en tu navegador mediante un Web Worker. El contenido del archivo se procesa en tu navegador con un Web Worker y no se transmite a nuestros servidores.

¿De qué tamaño puede ser el CSV que deduplico?+

Los usuarios anónimos pueden usar la herramienta con archivos de hasta unas 2.000 filas gratis. Archivos más grandes usan los tramos de pago por operación (desde $3). Mira la página de precios para los límites completos.

¿Y los duplicados aproximados — valores que parecen iguales pero no son idénticos byte a byte?+

Usa el modo de coincidencia aproximada. Encuentra duplicados aproximados ('Acme Corp' vs 'Acme Corporation' vs 'ACME corp') mediante similitud Jaro-Winkler. Aparecen listados en la pestaña Coincidencias aproximadas con el motivo.