¿Qué ve realmente una red neuronal? De los filtros de Sobel a los mapas de atención

Thu, 11 Jun 2026 00:00:00 +0000

“El modelo acierta” y “el modelo entiende” no son la misma frase. La diferencia se descubre visualizando.

Cuando un modelo de visión clasifica una imagen, ¿en qué se está fijando? La pregunta parece filosófica pero es brutalmente práctica: he visto modelos con métricas excelentes en validación que en realidad habían aprendido a mirar otra cosa —un reflejo, una marca de la cámara, la esquina de la imagen donde casualmente aparecían los defectos del dataset—. Este post es un recorrido por las herramientas que uso para responder esa pregunta, de las más clásicas a las más actuales.

CNNs vs Vision Transformers: lecciones desde la inspección industrial

Thu, 28 May 2026 00:00:00 +0000

En el paper todo funciona. En la fábrica, el modelo se encuentra con polvo, reflejos, vibraciones y un defecto que aparece una vez cada 50.000 imágenes.

Llevo tiempo entrenando modelos de detección de defectos para inspección industrial, y una de las preguntas que más me hacen es: ¿CNN o Vision Transformer? La respuesta corta es “depende”. La respuesta larga es este post: qué dice la teoría, qué he visto en la práctica y qué criterios uso para decidir.

PyTorch on

¿Qué ve realmente una red neuronal? De los filtros de Sobel a los mapas de atención

CNNs vs Vision Transformers: lecciones desde la inspección industrial