La compañía china de IA DeepSeek presentó DeepSeek-OCR el lunes, un modelo de IA multimodal de código abierto que logra una compresión de texto de hasta 20 veces manteniendo un 97% de precisión, marcando un avance significativo en la eficiencia del procesamiento de documentos para sistemas de IA.
Avance en la Compresión de Texto Visual
El modelo de visión-lenguaje de 3 mil millones de parámetros aprovecha un enfoque innovador que trata el texto como imágenes para la compresión, permitiendo que los sistemas de IA procesen documentos masivos sin aumentos proporcionales en los costos computacionales. Según el documento técnico de DeepSeek, el modelo puede comprimir texto hasta 10 veces manteniendo el 97% de la información original, con un rendimiento útil incluso en proporciones de compresión de 20x.
"A través de DeepSeek-OCR, demostramos que la compresión visión-texto puede lograr una reducción significativa de tokens – de siete a 20 veces – para diferentes etapas de contexto histórico, ofreciendo una dirección prometedora para abordar los desafíos de contexto largo en LLMs," declaró la compañía con sede en Hangzhou.
El sistema procesa más de 200,000 páginas diariamente en una sola GPU Nvidia A100, con un rendimiento que alcanza 33 millones de páginas por día utilizando 20 servidores equipados con ocho A100s cada uno. Esta capacidad de procesamiento supera con creces los métodos OCR tradicionales, que típicamente requieren miles de tokens para tareas similares.
Arquitectura Técnica y Rendimiento
DeepSeek-OCR consta de dos componentes principales: DeepEncoder para el procesamiento de imágenes y DeepSeek3B-MoE-A570M como decodificador. El codificador combina el SAM (Segment Anything Model) de 80 millones de parámetros de con el CLIP de 300 millones de parámetros de OpenAI, utilizando un compresor 16x que reduce una imagen de 1.024 píxeles de 4.096 tokens a solo 256 tokens.
En pruebas comparativas en OmniDocBench, DeepSeek-OCR superó a GOT-OCR 2.0 utilizando solo 100 tokens de visión en comparación con 256, y superó a MinerU 2.0 con menos de 800 tokens frente a más de 6.000 tokens por página. El modelo admite aproximadamente 100 idiomas y puede procesar varios tipos de documentos, desde presentaciones simples que requieren 64 tokens hasta periódicos complejos que necesitan hasta 800 tokens en "modo Gundam".
DeepSeek entrenó el sistema utilizando 30 millones de páginas PDF en aproximadamente 100 idiomas, incluyendo diagramas sintéticos, fórmulas químicas y figuras geométricas. El modelo ya está disponible en Hugging Face y GitHub bajo la licencia MIT, continuando con el compromiso de DeepSeek con el desarrollo de IA de código abierto que previamente ha revolucionado la industria con alternativas rentables a los modelos de OpenAI.