#OCR
11 de junio de 2026
6 min lectura
Tags: #OCR #computer vision #inspección industrial #GLM-OCR #modelos locales #deep learning
El OCR lleva décadas declarándose resuelto. Luego te piden leer caracteres negros, en relieve, sobre caucho negro, en una superficie curva que se mueve, y descubres dónde estaban escondidos los problemas.
Trabajo en visión por computador para inspección industrial en la industria del neumático, y hace poco estuve experimentando por mi cuenta con GLM-OCR, un modelo multimodal de OCR pequeño y abierto. La combinación de ambas cosas —el benchmark mental de “qué exigiría mi entorno de trabajo” aplicado a un modelo que cabe en un portátil— me dejó varias reflexiones sobre el estado del OCR que creo que merecen un post. Sin datos ni detalles de proyectos concretos: lo que sigue es la naturaleza del problema, que es pública y fascinante, y lo que aprendí del modelo, que es abierto.