Deep Learning on

¿Qué ve realmente una red neuronal? De los filtros de Sobel a los mapas de atención

Thu, 11 Jun 2026 00:00:00 +0000

“El modelo acierta” y “el modelo entiende” no son la misma frase. La diferencia se descubre visualizando.

Cuando un modelo de visión clasifica una imagen, ¿en qué se está fijando? La pregunta parece filosófica pero es brutalmente práctica: he visto modelos con métricas excelentes en validación que en realidad habían aprendido a mirar otra cosa —un reflejo, una marca de la cámara, la esquina de la imagen donde casualmente aparecían los defectos del dataset—. Este post es un recorrido por las herramientas que uso para responder esa pregunta, de las más clásicas a las más actuales.

OCR en condiciones extremas: leer texto donde no hay tinta

Thu, 11 Jun 2026 00:00:00 +0000

El OCR lleva décadas declarándose resuelto. Luego te piden leer caracteres negros, en relieve, sobre caucho negro, en una superficie curva que se mueve, y descubres dónde estaban escondidos los problemas.

Trabajo en visión por computador para inspección industrial en la industria del neumático, y hace poco estuve experimentando por mi cuenta con GLM-OCR, un modelo multimodal de OCR pequeño y abierto. La combinación de ambas cosas —el benchmark mental de “qué exigiría mi entorno de trabajo” aplicado a un modelo que cabe en un portátil— me dejó varias reflexiones sobre el estado del OCR que creo que merecen un post. Sin datos ni detalles de proyectos concretos: lo que sigue es la naturaleza del problema, que es pública y fascinante, y lo que aprendí del modelo, que es abierto.

CNNs vs Vision Transformers: lecciones desde la inspección industrial

Thu, 28 May 2026 00:00:00 +0000

En el paper todo funciona. En la fábrica, el modelo se encuentra con polvo, reflejos, vibraciones y un defecto que aparece una vez cada 50.000 imágenes.

Llevo tiempo entrenando modelos de detección de defectos para inspección industrial, y una de las preguntas que más me hacen es: ¿CNN o Vision Transformer? La respuesta corta es “depende”. La respuesta larga es este post: qué dice la teoría, qué he visto en la práctica y qué criterios uso para decidir.