En el paper todo funciona. En la fábrica, el modelo se encuentra con polvo, reflejos, vibraciones y un defecto que aparece una vez cada 50.000 imágenes.
Llevo tiempo entrenando modelos de detección de defectos para inspección industrial, y una de las preguntas que más me hacen es: ¿CNN o Vision Transformer? La respuesta corta es “depende”. La respuesta larga es este post: qué dice la teoría, qué he visto en la práctica y qué criterios uso para decidir.