DeepSeek-OCR: una nueva forma de comprimir texto a través de imágenes

Wait 5 sec.

Cuando pensamos en inteligencia artificial y lenguaje, lo primero que nos viene a la mente es texto plano, líneas de palabras que una máquina debe leer y procesar. Pero, ¿y si esa no fuera la manera más eficiente de hacerlo? Esa es la premisa detras de DeepSeek-OCR, un modelo de código abierto desarrollado por la firma china DeepSeek que ha desafiado los cánones tradicionales del procesamiento de lenguaje natural.En lugar de leer texto como secuencias lineales de tokens, DeepSeek-OCR convierte el texto en imágenes y lo procesa visualmente. Esta estrategia, llamada «compresión óptica de contexto», permite reducir la cantidad de datos que una IA necesita para entender documentos extensos. La idea central es que, al ver el texto como una imagen, se puede comprimir su contenido hasta diez veces, sin perder información crucial.De palabras a píxeles: cómo funciona DeepSeek-OCREl mecanismo de este modelo puede parecer contraintuitivo al principio. Primero, el texto se convierte en una imagen, como si se tratara de una captura de pantalla de un documento. Luego, entra en juego un componente llamado DeepEncoder, un codificador visual de 380 millones de parámetros, que divide la imagen en pequeñas secciones y las transforma en «tokens visuales».Estos tokens visuales actúan como unidades comprimidas de información. En lugar de usar miles de tokens de texto para representar un documento largo, se utilizan unos pocos cientos de estos tokens visuales. Un artículo de mil palabras, por ejemplo, puede resumirse en solo 100 tokens visuales, lo que representa una reducción de hasta un 90% en la carga de procesamiento.A continuación, un decodificador de lenguaje reconstruye el significado textual original a partir de esos tokens visuales. Este enfoque no solo aligera la carga de memoria de los modelos, sino que también permite manejar contextos mucho más extensos, abriendo la puerta a modelos capaces de comprender documentos de decenas de miles de palabras.Eficiencia y escalabilidad sorprendentesUno de los puntos más impresionantes de DeepSeek-OCR es su rendimiento. En pruebas realizadas con una sola GPU Nvidia A100, el sistema fue capaz de procesar más de 200.000 páginas al día. En entornos más grandes, con clústeres de servidores, esta cifra escala hasta 33 millones de páginas por día.Los investigadores de DeepSeek también pusieron a prueba el modelo en benchmarks como OmniDocBench, superando a sistemas como GOT-OCR2.0 y MinerU2.0, a pesar de utilizar muchos menos tokens. Estos resultados respaldan la idea de que menos puede ser más si se representa la información de forma visual y comprimida.Implicaciones para los modelos de lenguaje del futuroUna de las mayores limitaciones de los grandes modelos de lenguaje (LLMs) es la ventana de contexto, es decir, cuánta información pueden considerar a la vez. DeepSeek-OCR podría cambiar esta realidad al permitir contextos de hasta 10 o 20 millones de tokens, algo que hoy parece impensable.Esto tendría aplicaciones enormes en el mundo empresarial, por ejemplo. Imaginemos un asistente de IA que pueda leer todos los manuales, informes y documentos de una compañía y responder preguntas específicas sin tener que buscarlos en bases de datos. Todo el conocimiento estaría «cargado» de antemano en la memoria del modelo.Este enfoque también se alinea con el funcionamiento de la memoria humana. Los investigadores proponen una técnica llamada «decaimiento de memoria computacional», donde los datos más antiguos se comprimen progresivamente en resoluciones menores, conservando la esencia pero liberando espacio cognitivo, igual que hacemos las personas cuando priorizamos ciertos recuerdos sobre otros.Adiós a los tokenizadores tradicionalesOtro beneficio del enfoque visual es que evita muchos de los problemas técnicos de los tokenizadores de texto, sistemas que descomponen las palabras en fragmentos para que la IA los procese. Estos tokenizadores suelen ser complejos, heredan problemas de codificación históricos y a veces dividen mal los caracteres.Al procesar el texto como imagen, se pueden conservar aspectos que antes se perdían, como negritas, colores, formatos y disposición espacial, todo lo cual influye en el significado. Además, se facilita el uso de atención bidireccional, una técnica más poderosa que la atención autoregresiva usada comúnmente en LLMs.Entrenamiento masivo y enfoque multidisciplinarPara lograr estos resultados, DeepSeek-OCR fue entrenado con 30 millones de páginas en PDF de cerca de 100 idiomas, incluyendo datos de documentos financieros, académicos, manuscritos y otros. También se incluyeron gráficas sintéticas, fórmulas químicas y figuras geométricas, así como datos visuales generales para mantener capacidades de visión por computadora.Este enfoque multidisciplinar, que mezcla procesamiento visual, comprensión de lenguaje y optimización de contexto, marca un hito en la búsqueda de modelos más eficientes. El entrenamiento se realizó en un clúster de 160 GPUs A100, utilizando paralelismo de pipeline para dividir las tareas de codificación visual y decodificación textual.Código abierto y comunidad involucradaUno de los aspectos más valiosos de DeepSeek-OCR es que ha sido liberado con código abierto bajo licencia MIT, lo que permite su uso tanto académico como comercial. Esto ya ha generado un gran interés en la comunidad: en menos de 24 horas desde su publicación en GitHub, el repositorio recibió miles de estrellas.El enfoque ha sido tan llamativo que figuras como Andrej Karpathy, exdirector de IA en Tesla y cofundador de OpenAI, han elogiado su potencial. Karpathy incluso sugiere que los modelos del futuro podrían prescindir del texto como entrada, procesando directamente imágenes renderizadas del mismo.Retos pendientes y camino por recorrerA pesar de los avances, aún quedan preguntas abiertas. La principal es si los modelos pueden razonar con la misma eficacia usando tokens visuales comprimidos en lugar de texto tradicional. La investigación inicial se centra más en la compresión y reconstrucción que en la capacidad de razonamiento profundo.Los propios creadores reconocen que este es solo el comienzo, y ya planean nuevas evaluaciones para probar la utilidad de este método en tareas complejas como preguntas de contexto largo o integración de información dispersa.A medida que se exploran estos caminos, queda claro que el procesamiento de texto a través de imágenes no es solo una curiosidad técnica, sino una estrategia con potencial transformador.La noticia DeepSeek-OCR: una nueva forma de comprimir texto a través de imágenes fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.