Por qué Excel falla con un millón de filas

27 de mayo de 20266 min de lectura

Filas de servidores en un data centre, ilustrando volúmenes de datos que superan el límite de un millón de filas de Excel

Excel tiene un límite duro de 1.048.576 filas por hoja (2²⁰), que es lo que cabe en un índice de fila de 20 bits. Si abres un CSV con más filas, Excel trunca en silencio y te enseña solo el primer millón de líneas. El resto no se ve dentro de Excel y no aparecerá en ninguna tabla dinámica, fórmula o gráfico que construyas encima.

El límite duro es la parte famosa. La lentitud es la parte que de verdad arruina el flujo. Vamos a ver las dos.

El límite duro: 1.048.576 filas

Todos los formatos modernos de Excel (XLSX, XLSM, XLSB) heredan el mismo límite de cuadrícula: 1.048.576 filas × 16.384 columnas por hoja. Ese número es 2²⁰, elegido porque Excel indexa internamente las filas con un entero de 20 bits. El límite es idéntico en Excel moderno (365, 2021, 2019) y aplica a cada hoja del libro de forma independiente.

¿Qué pasa cuando abres un CSV con más filas? Excel muestra un diálogo (‘No se cargó el archivo por completo’) y procede con las primeras 1.048.576 líneas. El resto del archivo sigue intacto en disco, pero no lo puedes ver en Excel hasta que partas el archivo en trozos más pequeños.

El límite blando: duele mucho antes del millón

Mucho antes del límite de filas, Excel se vuelve doloroso. El motor de cálculo recomputa el grafo de dependencias en cada edición; las funciones volátiles (HOY, AHORA, DESREF, INDIRECTO, ALEATORIO) disparan un recálculo completo; el formato condicional se evalúa celda a celda; y el archivo se reescribe en disco con cada guardado. Con 200k filas y unas pocas columnas con fórmulas, cada click se atasca un segundo. Con 500k filas se atasca varios segundos. Con 900k filas se oye el ventilador claramente.

XLSX es además un formato XML comprimido. Abrir el archivo significa descomprimir el ZIP entero, parsear cada celda al grid de cálculo y luego ofrecértelo para editar. A partir de unos 200.000 filas pobladas, el bucle de abrir y responder en la mayoría de portátiles se mide en segundos por clic.

Por qué CSV es más rápido para datos grandes

Un CSV es texto plano. Lo puedes leer línea a línea sin tener el archivo entero en memoria, que es exactamente lo que hace cada herramienta ETL, cargador de base de datos y utilidad de división. El mismo archivo abierto en Excel tiene que parsearse íntegramente a una cuadrícula de celdas antes de poder hacer nada; abierto como CSV por una herramienta streaming se puede procesar en memoria constante.

En la práctica, eso significa: si tus datos pasan de 100k filas, no trabajes con ellos en un solo libro. Pártelos antes de abrir, o procésalos fuera de Excel y trae solo el resumen.csv.reader, un divisor por línea de comandos, o una herramienta en navegador que use un Web Worker. La idea es evitar cargar el archivo en una cuadrícula que no necesitas.

El flujo práctico cuando tu archivo es demasiado grande

Cuando un CSV o XLSX pasa de lo que Excel puede manejar cómodamente, lo correcto es partirlo en archivos más pequeños que sí encajen. Cualquier herramienta downstream que necesite los datos (una importación a base de datos, una herramienta de BI, un compañero con un portátil antiguo) está más contenta con cinco archivos de 200k filas que con uno de 1M.

Ese es el flujo para el que está hecho MessyMatch. El divisor de CSV hace streaming del archivo línea a línea y escribe partes del número de filas o tamaño en bytes que especifiques. El divisor de Excel hace lo mismo para XLSX con la salvedad de que parsear XLSX es más pesado. Para XLSX muy grandes, exporta a CSV primero si puedes y después divides. El resultado es una carpeta de parciales listos para importar, cada uno cómodamente dentro de los límites de Excel, cada uno compartible por separado.

Checklist corto

Más de 100k filas en XLSX: exporta a CSV antes de hacer nada pesado.
Más de 500k filas en CSV: ni intentes abrirlo en Excel. Usa una herramienta CSV-aware.
Necesitas importar en un sistema con límite de filas (HubSpot, Salesforce, Mailchimp): divide en partes del tamaño del límite, cabeceras en cada parte.
Necesitas enviar el archivo: la mayoría de proveedores limita adjuntos a 25 MB. Divide por tamaño en bytes, no por número de filas, para ese caso.
Necesitas comparar dos archivos grandes: no uses BUSCARV. Haz diff con una herramienta que haga streaming. Mira el siguiente post sobre BUSCARV vs BUSCARX vs comparar archivos.