Comparativas

Sistemas de machine vision en 2026: la guía de las arquitecturas principales

Korbinian KuusistoCEO & Founder, Enao Vision

April 1, 2026

Sistemas de machine vision en 2026: la guía de las arquitecturas principales

Un sistema de machine vision convierte la luz reflejada en un producto en una decisión de aprobación o rechazo en tiempo real. El stack completo tiene cuatro capas: una cámara captura la imagen, la iluminación hace visible el defecto, el software ejecuta los algoritmos que analizan la imagen y devuelven un veredicto, y un trigger lleva ese veredicto al PLC. Los sistemas tradicionales fixed-line cuestan entre 20.000 y 80.000 euros por estación de inspección, más el tiempo del integrador y las paradas por cambio de formato. Es la arquitectura que eliges, no la marca, lo que decide si ese dinero resuelve tu problema.

Casi todas las guías sobre sistemas de machine vision abren con una larga lección sobre la historia de los sensores CCD y las adquisiciones de Cognex. Vamos a saltarnos esa parte. Si gestionas una línea de producción y tienes un problema de calidad que un inspector humano ya no puede sostener, necesitas entender tres ejes de decisión y cuánto cuestan a grandes rasgos en un entorno productivo real. El resto es detalle que tu integrador resolverá.

¿Dónde encajan los sistemas de machine vision en la automatización industrial?

Una fábrica moderna gira sobre un loop estrecho de sistemas de automatización: PLCs que mandan en las cintas, brazos robóticos que hacen pick and place, software MES que rastrea cada pieza y sistemas de machine vision que actúan como ojos de todo el stack. Quita la vision de la automatización industrial y te quedas ciego ante los defectos hasta que te los avisa el cliente. Vuelve a meterla, y la misma automatización que ya mueve las piezas por la línea puede también descartarlas, reprocesarlas o reequilibrarlas al vuelo. La vision es la capa que convierte el movimiento en decisión.

La guía de robots es el ejemplo más claro. Un brazo de seis ejes no consigue coger una pieza orientada al azar dentro de un contenedor sin un sistema de vision que le diga dónde está la pieza, cómo está girada y si es la variante que la siguiente estación espera. Robótica y machine vision crecieron juntas precisamente por esto. El mismo flujo de vídeo que gestiona la detección de defectos en la estación 7 puede guiar la verificación de montaje en la estación 8 y enviar señales correctivas en tiempo real al robot de la estación 9. Cuanto más cerrado está el loop, menos chatarra llega al final de la línea.

Dos stacks de software dominan la capa de algoritmos. Las librerías rule-based codifican la intuición del experto humano: edge detection, blob analysis, template matching, controles dimensionales calibrados. Los stacks de inteligencia artificial, en particular las redes convolucionales de deep learning, aprenden los mismos patrones a partir de imágenes etiquetadas y generalizan a variantes que las reglas nunca han visto. La mayor parte de las soluciones de machine vision de nivel productivo hoy mezclan los dos enfoques, con funciones rule-based que cubren los controles deterministas y deep learning que se ocupa de los defectos estéticos más sucios.

¿Qué cuenta como sistema de machine vision?

El stack completo trabaja como un único loop: la cámara captura la imagen, la iluminación hace visible el defecto, el software analiza la imagen y devuelve un veredicto, y un trigger más una salida llevan ese veredicto al PLC o al mecanismo de descarte. Cada capa hace de contrapeso a las demás. Una iluminación barata obliga a un software más caro. Una cámara más rápida puede simplificar la lógica del trigger. El sistema funciona solo hasta donde llega su capa más débil, y por eso la mayoría de las aplicaciones de machine vision fallidas resultan ser un problema de iluminación disfrazado de problema de software.

Cualquier cosa más sencilla que esto, por ejemplo un sensor láser de distancia o una barrera fotoeléctrica, es un sensor de presencia, no un sistema de vision. Cualquier cosa más grande, como una estación completa de control de calidad inline con robótica y compuertas de descarte, sigue siendo un sistema de vision en su núcleo, solo que envuelto en más hardware. Lo mismo pasa con la categoría más amplia de las vision solutions vendidas como soluciones llave en mano: bajo el capó encuentras el mismo stack de procesamiento de imagen de cuatro capas con un empaquetado distinto, y la lógica de quality control acaba pasando siempre por la misma capa de trigger.

Para un análisis a fondo de los componentes individuales, cámaras, ópticas, iluminación y vendors de software, mira nuestra guía de procesamiento industrial de imágenes, que recorre cada capa del stack con vendors de referencia y rangos de precio.

Conviene tener un número en mente antes de seguir adelante. Como regla práctica, necesitas al menos 20-30 píxeles sobre la dimensión del defecto más pequeño que quieres detectar. Un arañazo de 0,3 milímetros sobre una pieza que llena un frame de 12 megapíxeles es complicado. Ese mismo arañazo sobre una pieza que llena un frame de 2 megapíxeles es imposible. Resolución del sensor, elección de óptica y working distance fijan ese techo antes incluso de que el software entre en juego.

¿Qué hace de verdad cada capa de un sistema de machine vision?

Las cuatro capas no son igual de caras ni igual de importantes en cada línea. Una inspección de superficie sobre metal pulido se gana o se pierde en la iluminación. Una línea de embotellado a alta velocidad se gana o se pierde en shutter speed y latencia del trigger. Saber qué capa hace el trabajo en tu línea es lo que te dice dónde gastar el dinero. La misma lógica vale para cada subsistema bajo la puerta del cuadro, desde los cables que llevan alimentación hasta el módulo que aloja la inferencia.

Cámara y óptica

La combinación cámara-óptica define lo que el sistema puede ver físicamente. Resolución del sensor, tamaño del píxel y focal de la óptica deciden juntos el campo de visión y el detalle mínimo detectable. Las cámaras industriales van desde sensores global-shutter de 1 megapíxel a 400 euros hasta sensores científicos de 50 megapíxeles por encima de los 8.000 euros. Las cámaras de los smartphones modernos se sitúan entre 12 y 48 megapíxeles con stacking computacional, y eso pone a un iPhone actual por delante de la mayoría de cámaras industriales por debajo de 2.000 euros para los tasks de inspección sobre los que se pueden montar.

La adquisición de imagen es el punto en el que arranca el resto del stack. Un setup típico fixed-line saca una imagen digital del sensor por GigE Vision, USB3 Vision o Camera Link, a veces a través de un frame grabber dedicado que hace buffering y preprocesado de los datos de píxel antes de pasarlos al host. Los frame grabbers eran obligatorios para cámaras line scan y de alta velocidad y siguen siendo habituales en los flujos de metrología donde cada microsegundo de latencia cuenta. La captura de imagen basada en Ethernet se ha comido la franja más baja del mercado porque los frame grabbers GigE Vision pueden funcionar al lado de tarjetas de red comerciales. Para sensores de alta resolución por encima de 25 megapíxeles a frame rate completo, los frame grabbers dedicados se siguen ganando su sitio.

Iluminación

La iluminación es la capa que falla más a menudo, porque es la capa que quien compra se salta más a menudo en la fase de especificación. Las condiciones de luz ambiente en fábrica cambian entre turnos, estaciones del año y ángulos de luz desde los lucernarios. Un sistema de machine vision fijado necesita su propia fuente luminosa apantallada para que la imagen vista por la cámara sea idéntica a las 03:00 de un domingo de febrero y a las 13:00 de un miércoles de julio. La elección de iluminación (ring, bar, backlight, dome, dark field, structured) la dicta el defecto, no la preferencia. Unas condiciones de iluminación estables son lo que da repetibilidad a un modelo entre un turno y el siguiente.

Software

El software toma la decisión de verdad. Las librerías rule-based como Halcon, VisionPro y OpenCV hacen matching de patrones, miden dimensiones y comparan intensidades contra umbrales con algoritmos clásicos (edge detection, blob analysis, geometric matching). Los stacks de inteligencia artificial ejecutan redes neuronales convolucionales, sobre todo clasificadores y detectores supervisados, que aprenden lo que significa "bueno" a partir de unos cientos de imágenes de referencia. El deep learning te permite saltarte el feature engineering manual y entrar antes en producción sobre los defectos estéticos que los algoritmos clásicos no pueden describir. La capa de software incluye también el runtime de inferencia, que puede correr en un PC, una smart camera, un dispositivo edge embedded o un smartphone, y que dicta la velocidad de procesamiento de todo el loop.

Trigger y salida

Trigger y salida son la fontanería. Un sensor fotoeléctrico o un encoder le dice a la cámara cuándo una pieza está en frame. La decisión (pass, fail, fail con motivo) vuelve a un PLC vía I/O digital, EtherNet/IP o Profinet, que entonces dispara un soplido de aire de descarte, un brazo robótico, una estación de marcado o simplemente un contador. Los budgets de latencia son ajustados: una línea a 300 piezas por minuto le da al sistema 200 milisegundos para capturar, decidir y avisar.

¿Cómo se compara la machine vision rule-based con la AI-based?

La división más vieja de la machine vision es entre sistemas rule-based y sistemas AI-based. Cognex, Keyence y todas las librerías clásicas (Halcon, OpenCV, VisionPro) salieron del mundo rule-based. El sistema se programa para buscar features específicas. Un agujero debe tener 4,2 milímetros de diámetro. Un logo debe estar a 12 milímetros del borde izquierdo. Una superficie debe ser uniformemente gris con una desviación estándar por debajo de un umbral. Los algoritmos son deterministas y fáciles de auditar, y por eso metrología y verificación de montaje siguen apoyándose en ellos.

El rule-based funciona muy bien cuando tu producto es constante, tus defectos están geométricamente definidos y la iluminación está blindada. Se rompe en el momento en que la realidad se ensucia. Un lote distinto de materia prima, una nueva variante de producto, un cambio de luz ambiente desde el lucernario sobre la línea, y de pronto tu tasa de falsos rechazos se duplica de un día para otro.

Los sistemas AI-based dan la vuelta a la lógica. El enfoque funciona en dos fases. Se parte enseñando al modelo ejemplos de piezas conformes para que marque cualquier cosa que parezca inusual, y eso saca a la luz candidatos a defecto sin que nadie los haya etiquetado antes. Luego esos defectos se etiquetan, se agrupan por tipo y se entrenan modelos de detección supervisados que clasifiquen cada uno. Ese segundo paso es lo que hace el enfoque robusto en producción, con alta precisión y un veredicto accionable sobre cada pieza, no una simple señal pass-fail. Hemos desmenuzado este trade-off en nuestra definición práctica de AI visual inspection y contado lo que cuesta mantener vivo cada enfoque una vez que está en el cuadro eléctrico.

La diferencia práctica es lo que pasa cuando tu producción cambia. Un sistema rule-based necesita que un integrador lo reprograme, lo que típicamente significa una orden de cambio y tres a seis semanas. Un sistema AI-based necesita nuevas imágenes de referencia, que un operario de línea recoge en una hora, y el modelo se ajusta sin tocar el cuadro eléctrico. Para una planta que hace más de tres variantes de producto al año, esa diferencia se acumula rápido.

¿Cuándo necesitas varias cámaras en un sistema de machine vision?

El segundo eje es cuántos ángulos necesitas. Un sistema de cámara única es el default para productos planos o cilíndricos inspeccionados desde una cara. Etiquetas en botellas. Defectos de superficie en chapa. Calidad de impresión en cartones. Una cámara, una óptica, un setup de iluminación, una decisión.

Los sistemas multi-camera entran en juego cuando los defectos pueden aparecer en cualquier cara de una pieza tridimensional. Una carcasa mecanizada en aluminio puede requerir cuatro cámaras alrededor para cazar arañazos en cada lado. Una pieza inyectada con regiones transparentes y opacas puede requerir dos cámaras con ángulos de iluminación distintos que disparan en secuencia.

El multi-camera grosso modo duplica o cuadruplica el coste de hardware y software. Multiplica también la complejidad de sincronización. Si la cámara 1 ve la pieza en el timestamp T y la cámara 3 la ve en T más 80 milisegundos, el software tiene que coser los dos frames al mismo ID de pieza. Los sistemas clásicos hacen esto con encoders triggered desde el PLC. Los sistemas AI lo hacen con inferencia por cámara y una capa de lógica de descarte compartida.

Regla práctica: empieza con cámara única. Pasa a multi-camera solo cuando una auditoría de defectos demuestre que más del 15 por ciento de tus escapes ocurre en caras que la cámara única no llega a ver.

¿Qué tipos de sensor usan las cámaras industriales?

El tipo de sensor es la primera decisión de hardware después de elegir rule-based contra AI y única contra multi-camera. El tipo que escoges depende de si la pieza se mueve, de si necesitas información de profundidad y de si el defecto es visible bajo luz normal. La mayoría de las cámaras industriales sale aún con sensores CCD o, hoy más a menudo, CMOS; la elección entre ambos moldea el equilibrio entre uniformidad de píxel, velocidad de lectura y coste.

Cámaras area scan vs line scan

Las cámaras area scan capturan un frame 2D completo en cada trigger. Cubren casi toda la inspección de piezas discretas: botellas, cartones, componentes mecanizados, montajes electrónicos. Las cámaras line scan capturan una sola fila de píxeles y se apoyan en la pieza que pasa frente al sensor para construir la imagen fila a fila. La line scan domina la inspección de bobinas continuas (papel, film, tejido, vidrio) y la chapa en rollo porque te da resolución muy alta a lo largo de la dirección de marcha sin comprar un sensor area enorme. Combina una cámara line scan con un frame grabber y una barra de luz estroboscópica y puedes inspeccionar una bobina en movimiento a varios metros por segundo con detalle por debajo del milímetro.

Sistemas de vision 3D

Cuando el defecto es geométrico, como un tornillo que falta, una superficie deformada o una altura equivocada, una imagen 2D a menudo no basta. Los sistemas de vision 3D usan stereo (dos cámaras), structured light (un proyector más una cámara), triangulación láser (una línea láser más una cámara) o sensores time-of-flight para reconstruir la profundidad. Cuestan entre dos y cuatro veces más que los sistemas 2D, y por eso la mayoría de las plantas los reserva para los tasks que los exigen sí o sí: bin picking con guía de robot, control de cordones de soldadura, verificación dimensional sobre piezas complejas.

Imagen hiperespectral e infrarroja

Algunos defectos son invisibles para una cámara RGB normal. Humedad bajo un recubrimiento, contaminación en un producto alimentario, una delaminación dentro de una capa transparente. Las cámaras near-infrared, short-wave infrared e hiperespectrales capturan bandas de longitud de onda que el ojo humano y los sensores consumer se pierden. Son caras (entre 15.000 y 80.000 euros por cámara) y lentas, así que aparecen más en alimentación, farma, agricultura y reciclaje que en la manufactura general.

¿Qué setups de iluminación funcionan para la vision industrial?

La elección de iluminación es lo que marca la diferencia entre un sistema que funciona desde el primer día y uno que arrastra un proyecto de tuning de seis meses. La respuesta correcta depende de la superficie, del tipo de defecto y del contraste necesario bajo las condiciones de iluminación normales de la línea.

Ring light y bar light

Las ring light rodean la óptica y dan iluminación uniforme, en su mayor parte difusa, sobre superficies planas o ligeramente curvas. Las bar light se ponen al lado de la pieza con un ángulo controlado. Son los caballos de batalla de la inspección general: controles de presencia, lectura de etiquetas, OCR, arañazos simples de superficie sobre metal o plástico. Son baratas (entre 50 y 400 euros), fáciles de montar y perdonan errores.

Backlight, dome y dark field

Los backlight se sitúan detrás de la pieza para que la cámara vea una silueta. Son imbatibles para controles dimensionales sobre piezas opacas y para productos transparentes que esconden los defectos contra fondos luminosos. Las dome light envuelven la pieza con luz difusa para matar los reflejos especulares sobre superficies brillantes (aluminio anodizado, plástico pulido, metal pintado). La iluminación dark field roza la superficie con un ángulo bajo de manera que arañazos y abolladuras saltan como líneas claras sobre fondo oscuro, lo opuesto a cómo la iluminación ring tiende a difuminarlos.

Iluminación estructurada y láser

La iluminación structured light proyecta un patrón conocido (rayas, puntos, una rejilla) sobre la pieza para que la cámara pueda reconstruir la geometría de la superficie a partir de la distorsión. Es el caballo de batalla de la vision 3D en fábrica. La line laser hace el mismo trabajo para los sistemas de triangulación láser, que escanean piezas altas o curvas a resolución muy alta. Ambos setups necesitan condiciones de ambiente más oscuras y suelen llegar en bundle con el sistema 3D, no se eligen aparte.

¿Cómo se despliegan los sistemas de machine vision?

Después del sensor y la iluminación, la siguiente decisión es dónde corre realmente la inspección. El modelo de deployment dirige capex, footprint y cuánto del sistema se puede reutilizar cuando cambia el mix de producto. Cada opción de abajo sale como un módulo reconocible que los integradores pueden meter dentro del cuadro eléctrico.

Machine vision PC-based

Los sistemas PC-based combinan una o varias cámaras industriales con un PC industrial dedicado que ejecuta software rule-based o AI. Te dan la máxima flexibilidad (más cámaras, lógica custom, pipelines complejas) y el máximo headroom de cómputo para los modelos AI, pero ocupan más espacio en el cuadro y más esfuerzo de ingeniería para el commissioning. El capex típico todo incluido va de 25.000 a 80.000 euros por estación.

Smart camera

Las smart cameras juntan sensor, procesador e I/O en una sola carcasa. Cognex In-Sight, Keyence CV-X y Basler ace son ejemplos conocidos de smart cameras que salen como módulo único. Son más fáciles de instalar, más baratas que una estación PC-based e ideales para inspecciones de cámara única con lógica rule-based predecible. La pega es el cómputo limitado, así que los modelos AI pesados no siempre caben en una smart camera y los setups multi-camera complejos te empujan de vuelta hacia arquitecturas PC-based.

Embedded edge y dispositivos fleet-based

El modelo de deployment más nuevo usa pequeños dispositivos edge embedded (placas clase Jetson, smartphones, tablets ruggerizadas) que hacen inferencia AI on-device y se conectan a un back end para gestión de flota y actualizaciones de modelo. Los iPhone en esta categoría llevan sensores global-shutter de 12 megapíxeles, un neural engine de la serie A que ejecuta modelos convolucionales en tiempo real, y un ciclo de vida hardware de cinco años en una pieza que el operario ya sabe manejar. Eso es lo que hace que la inspección fleet-based sea comercialmente sostenible.

¿Cuáles son las aplicaciones de machine vision más comunes?

Cinco aplicaciones de machine vision cubren el grueso de la capacidad instalada en la manufactura discreta. La detección de defectos sobre defectos estéticos y estructurales es el caso de uso estrella: arañazos, abolladuras, huecos, contaminación y features que faltan. La verificación de montaje confirma que un ensamblaje de varios pasos ha salido de la celda con cada tornillo, etiqueta y componente en su sitio, con la orientación correcta. La lectura de barcode y DPM (direct part marking) sostiene la trazabilidad en packaging, automoción y electrónica. La metrología mide cotas críticas contra tolerancias de plano, y a menudo sustituye al calibre manual. La guía de robots da al brazo robótico las poses de las piezas para que pueda recoger, dejar y orientar piezas que no están perfectamente utilladas.

Otras dos aplicaciones cierran la lista. La primera es el control de presencia-ausencia, la más simple de todas las funciones: la junta está, la tapa está cerrada, el sello de seguridad está intacto. La segunda es el pattern matching para alineamientos de alta calidad, que alimenta cabezales dosificadores, marcadores láser y máquinas pick-and-place que necesitan una referencia. Cada uno de estos casos de uso vive o muere por la validación contra ground truth, y por eso un piloto con 200-500 imágenes etiquetadas vale más que tres meses de demos de vendor.

La repetibilidad es lo que separa un sistema de vision que resuelve un problema real de calidad de uno que se va a la deriva tras el primer cambio de producto. Una prueba de campo útil es pasar las mismas 50 piezas conformes y 50 no conformes conocidas a través del sistema en tres turnos consecutivos. Si el veredicto sobre cada pieza es idéntico cada vez, tienes repetibilidad. Si dos de las 50 piezas cambian de resultado al cambiar el turno, el problema es tu iluminación o tu modelo, no la óptica, y tienes trabajo por delante antes de apretar más las tolerancias.

¿Cuál es la diferencia entre machine vision fixed-line y fleet-based?

El tercer eje es el más nuevo y el que la mayoría de las guías sigue ignorando. Tradicionalmente cada estación de inspección es fixed-line. Una cámara sobre un soporte rígido, una ring light, una enclosure sellada, cableada a un controlador en un cuadro. La instalación lleva entre dos y cuatro semanas. El commissioning otras dos. La estación no se puede mover sin re-commissioning.

La inspección fleet-based es la alternativa móvil que se ha hecho práctica en los últimos dos años, empujada por sensores en form factor pequeño (los smartphones modernos son hoy las cámaras industriales de mayor resolución que la mayoría de las fábricas se puede permitir) y por AI on-device. Un sistema fleet-based es un set de dispositivos de inspección portátiles que cualquier operario puede coger, poner delante de la línea y usar para hacer un control puntual al azar o un control al 100 por cien dentro del mismo entorno productivo, sobre el mismo proceso para el que se construyó la línea.

Esto cuenta por tres razones. Primero, pagas por task de inspección, no por cámara atornillada a un bastidor, así que añadir un nuevo punto de inspección es una decisión de turno, no un proyecto capex. Segundo, el mismo hardware puede inspeccionar tres líneas de producto distintas el lunes, miércoles y viernes si su takt time lo permite. Tercero, la inspección puede moverse con el producto: dentro de una estación de pre-empaquetado, sobre un carrito al final de un cuello de botella, en un laboratorio de calidad para muestreos más profundos. La misma flota cubre muchos casos de uso sin volver a comprar ópticas para cada uno.

El setup de montaje es lo que hace esta cosa práctica en una planta de verdad. Con una clamp magnética, un trípode o un soporte de posición fija, el mismo iPhone se coloca en 90 segundos en una estación y se vuelve a colocar en otra después de comer. Nuestra guía de montaje del iPhone en la línea de producción recorre los tres patrones que vemos más a menudo, lo que cuesta cada uno y dónde se rompe cada uno.

En Enao nos centramos justo en esta categoría. Como startup que envía soluciones de machine vision fleet-based, nuestro filo está exactamente donde los vendors fixed-line se ponen el precio fuera de mercado. Un setup fleet-based con un iPhone y una ring light de 80 euros sustituye una estación fija de 80.000 euros para un subconjunto útil de tasks de inspección, sobre todo donde volúmenes o variantes hacen injustificable una estación fija.

¿Qué arquitectura de machine vision encaja con qué línea de producción?

Los tres ejes te dan ocho combinaciones. En la práctica cinco cubren casi cualquier problema de inspección en la manufactura discreta. La lista de abajo mapea los patrones de línea sobre la arquitectura que encaja con los requisitos de aplicación que llevas dentro.

Línea de alto volumen monoproducto, defectos geométricamente definidos, una cara: rule-based, cámara única, fixed-line. Piensa en embotellado, impresión de etiquetas, controles dimensionales sobre juntas. Capex de 25.000 a 50.000 euros, payback por debajo de los dos años si la tasa de escape supera el 0,3 por ciento.
Línea de volumen medio con cambios de variante frecuentes, defectos estéticos y variables: AI-based, cámara única, fleet-based. Piensa en piezas de mobiliario, componentes mecanizados, carcasas pintadas. Capex por debajo de 5.000 euros para arrancar, escala lineal con el número de estaciones.
Pieza tridimensional inspeccionada en todas sus caras, catálogo de defectos estable: AI-based, multi-camera, fixed-line. Piensa en carcasas de aluminio mecanizado, piezas inyectadas con superficies críticas. Capex de 50.000 a 120.000 euros, justificado cuando el coste de escape por pieza supera los 5 euros.
Material continuo en bobina o rollo a alta velocidad: rule-based, cámara única line scan, fixed-line. Piensa en papel, film, vidrio, chapa. Capex de 30.000 a 80.000 euros, a menudo sustituido o combinado con AI para los controles estéticos.
Nuevo task de inspección sobre una línea donde el catálogo de defectos aún se desconoce: AI-based, cámara única, fleet-based. Piensa en una pieza recién rediseñada, en un nuevo proveedor, en un cluster de reclamaciones que aún no consigues fijar. Capex por debajo de 2.000 euros para arrancar, migra a fixed-line solo cuando el catálogo de defectos se estabilice.

El último patrón es donde la mayoría de quien compra se equivoca. Especifica un sistema fixed-line multi-camera rule-based para una línea donde aún nadie sabe qué pinta tiene el catálogo de defectos. Seis meses después se encuentra en casa con un sistema de 90.000 euros que pilla tres de los siete defectos que importan de verdad. Empezar fleet-based el primer año y migrar a una estación fija una vez que el catálogo de defectos se estabilice suele ahorrar dos tercios del coste de vida.

Para el lado financiero de este trade-off, hemos repasado el cálculo capex-versus-opex en una nota sobre compras y presupuestos para AI en manufactura, que es la plantilla que pedimos rellenar a los nuevos clientes con los números de su línea.

¿Qué sectores tiran de la demanda de machine vision?

Tres sectores valen la mayor parte del gasto global en machine vision. Las plantas de automoción ejecutan vision en cada celda de soldadura, cabina de pintura y estación de montaje final, con tolerancias estrechas sobre paneles body-in-white y subsistemas de motor. Los fabs de semiconductores dependen de la vision en cada paso, desde la inspección de wafer hasta el die bonding y el marcado del package, con una repetibilidad submicrométrica exigida a velocidades de línea muy por encima de lo que cualquier inspector humano puede sostener. La aeroespacial vive de volúmenes más bajos pero de tolerancias más estrechas, donde cada marca de par sobre un fijación, cada cordón de soldadura y cada laminación de composite necesita validación trazable contra el record de build.

Fuera de esos tres, la machine vision ya está integrada en alimentación y bebidas, farma, electrónica, packaging, logística, reciclaje y cada vez más mobiliario y moda. El hilo común es un proceso de manufactura en el que los defectos son lo bastante caros como para pagar las cámaras varias veces si los detectas antes del envío. Donde los volúmenes son más pequeños o las variantes más frecuentes, los sistemas fleet-based suelen ganar a las estaciones fijas en TCO. Donde los volúmenes son grandes y el producto es estable, el fixed-line sigue ganando.

¿Cómo se integran los sistemas de machine vision con PLC y MES?

Un sistema de machine vision que no consigue hablar con el resto de la línea es una Polaroid muy cara. La cuestión de system integration es la que marca la diferencia entre una estación que pilla defectos y una estación que cambia de verdad las métricas de throughput, scrap y trazabilidad. Los integradores cobran dinero de verdad por hacer de puente entre una cámara que funciona y una línea que funciona.

Por el lado del PLC, los sistemas vision publican señales de pass-fail y de fallo vía I/O digital para los casos simples y vía EtherNet/IP, Profinet o Modbus TCP para datos más ricos como clase de defecto, posición e ID de imagen. Un pulso de descarte, un disparo de marcador, un agarre robótico o un comando de paro de línea suelen vivir todos en el PLC y se disparan por el veredicto de vision en el mismo scan cycle. Son normales budgets de latencia entre 50 y 200 milisegundos.

Por el lado MES y calidad, el sistema hace streaming de cada decisión hacia una base de datos, a menudo con la imagen fuente adjunta. Ese feed es lo que alimenta los Pareto de causa de defecto, la genealogía de lote sobre las piezas no conformes y los dashboards SPC que los quality managers miran de verdad. Los sistemas fleet-based conectados a la nube se encargan de esto de forma nativa porque son network-first por diseño. Las estaciones fijas más antiguas suelen necesitar un conector SCADA o historian dedicado, y ese es uno de los costes escondidos en su TCO a tres años. Los equipos de IT internos que ya gestionan la espina dorsal MES se ahorrarán semanas de trabajo tratando el feed de vision como un endpoint de red más en vez de como un enlace serie hecho a medida.

¿Cuál es el ROI de un sistema de machine vision?

Tres números guían el cálculo del payback: el coste de los defectos que el sistema pilla, el trabajo que sustituye o aumenta y su coste de vida. Una línea que envía 200.000 piezas al año con una tasa de escape del 0,5 por ciento a 12 euros por defecto (retrabajo, nota de crédito al cliente, logística) está perdiendo 12.000 euros al año antes incluso de que un sistema de vision entre en escena. Pillar el 80 por ciento de esos escapes paga un sistema fleet-based de 25.000 euros en 2,6 años y una estación fija de 90.000 euros en 9,4 años.

La reducción de mano de obra es la segunda palanca. Un inspector full-time a un coste empresarial total de 50.000 euros al año es el budget contra el que compite la inspección automatizada. Si el sistema cubre el 60 por ciento de los tasks de esa persona, el ahorro es de 30.000 euros al año, lo que por sí solo paga la mayor parte de los deployments fleet-based dentro de 12 meses y libera al inspector para optimizar los casos más difíciles.

La tercera palanca está aguas arriba. Pillar un defecto en la estación 4 en lugar de al final de la línea ahorra el coste de procesamiento de cada operación entre esos dos puntos. Sobre una línea de montaje de 12 pasos, suele ser de tres a cinco euros por pieza, sumados al coste original del defecto. Los modelos de ROI que ignoran los ahorros aguas arriba subestiman el valor de la vision en línea entre un 30 y un 50 por ciento.

¿Cómo hacer una shortlist de sistemas de machine vision sin arrepentirte?

Tres preguntas cortan por la mitad la mayor parte de las shortlists. Mapean directamente sobre los requisitos de aplicación que tu línea tiene de verdad, no sobre la feature list que un vendor quiere venderte.

Primero, ¿cuántas variantes tiene que gestionar el sistema en su primer año de vida? Si la respuesta pasa de tres, el rule-based es casi seguro la elección equivocada, sin importar lo bajo que sea el precio por pieza.

Segundo, ¿qué pasa si el catálogo de defectos cambia? Pregúntale al vendor el proceso exacto y el tiempo para añadir una nueva clase de defecto después del go-live. Una buena respuesta se mide en horas y la puede hacer un operario de línea. Una respuesta mala se mide en semanas y exige una visita a planta. La misma pregunta vale para el reentrenamiento del modelo, los cambios de system design y cada ajuste que los propios ingenieros del vendor tienen que hacer detrás del telón.

Tercero, ¿cuál es el coste total de propiedad a tres años, no el precio de tarifa? Un sistema fixed-line rule-based a 40.000 euros de tarifa suele costar 120.000 euros en tres años cuando cuentas integración, reprogramación por cambios de producto y contrato de mantenimiento. Un sistema AI fleet-based a 500 euros por dispositivo al mes da 18.000 euros en tres años y cubre las actualizaciones.

Si quieres ir más a fondo en los criterios de compra, nuestra guía de compra de software de inspección visual lista las diez preguntas funcionales que vemos que los clientes querrían haber hecho antes de firmar.

¿Cómo empezar con sistemas de machine vision?

Si ahora mismo estás evaluando sistemas de machine vision, la forma más rápida de aprender qué encaja en tu línea es montar un piloto de dos semanas sobre un único task de inspección. Coge el defecto que más reclamaciones genera, recoge 200 imágenes de referencia de piezas conformes y mira si un sistema AI consigue marcar las no conformes sin que nadie le diga qué buscar.

Un piloto fleet-based en iPhone cuesta menos de 1.000 euros de hardware para probar. Necesitas un iPhone reacondicionado, una lámpara, cables y un soporte. Un sistema clásico fixed-line cuesta 60.000 euros solo para llegar a una propuesta. El experimento cuesta menos que la RFP, y las imágenes de alta calidad que produce un teléfono moderno bastan para validar si el problema de inspección es siquiera tratable antes de que arranque cualquier ciclo de compra.

Para una shortlist curada de vendors AI-based que sirven este espacio, mira nuestro comparativo de los mejores sistemas AI de machine vision para 2026, que puntúa ocho vendors en profundidad de integración, time-to-first-inspection y coste total de propiedad.

Preguntas frecuentes

¿Qué precisión tiene un sistema de machine vision en una línea de producción?

La precisión en el primer día sobre un defecto bien definido se sitúa entre el 80 y el 90 por ciento para los sistemas AI y entre el 90 y el 99 por ciento para los sistemas rule-based en chequeos binarios simples. Tras loops de feedback con datos de producción, la precisión AI sube al 95-99 por ciento, mientras que la rule-based se queda donde empezó pero se rompe en el momento en que los productos varían. El número que consigues de verdad depende de las condiciones de iluminación, del tamaño y calidad de los datos de entrenamiento y de lo grande que sea el defecto en relación a los píxeles del sensor.

¿Cuánto se tarda en instalar un sistema de machine vision?

Los sistemas tradicionales fixed-line llevan de cuatro a ocho semanas desde la orden de compra hasta la primera inspección: dos a cuatro semanas para envío e instalación de hardware, luego otras dos semanas para commissioning y programación de las reglas. Los sistemas AI fleet-based arrancan en días. Desempaquetas un iPhone, lo enganchas a un soporte, entrenas un modelo con 200 imágenes de referencia y empiezas a inspeccionar. La otra cara es que los sistemas fixed-line aguantan throughput más alto una vez en marcha, mientras que los sistemas fleet-based son más fáciles de reasignar cuando el mix de producto cambia.

¿Puede un sistema de machine vision gestionar varias variantes de producto?

Los sistemas AI-based gestionan bien las variantes. Recoges unas cientos de imágenes de referencia nuevas por variante y el modelo se adapta en horas. Los sistemas rule-based tienen problemas con las variantes porque cada nuevo producto suele exigir una visita del integrador y una nueva ronda de programación. Si tu línea hace más de tres variantes al año, factoriza esa diferencia en tu coste total de propiedad antes de firmar el pedido.

¿Cuánto cuesta un sistema de machine vision en 2026?

Los sistemas fixed-line cuestan de 20.000 a 80.000 euros por estación de inspección, más costes de integrador entre 5.000 y 15.000 euros y un contrato anual de mantenimiento. Los sistemas AI fleet-based en iPhone se quedan por debajo de 1.000 euros de hardware (iPhone reacondicionado, lámpara, soporte, cables) más una suscripción de software que suele estar entre 300 y 600 euros por dispositivo al mes. En tres años, la arquitectura que escojas pesa más en el coste total que la marca o la feature list.

Smart camera o PC-based: ¿qué modelo de deployment es mejor?

Las smart cameras ganan en inspecciones simples de cámara única donde la lógica es predecible y la línea tiene restricciones de espacio. Los sistemas PC-based ganan cuando necesitas varias cámaras, pipelines complejas, modelos AI pesados o una integración estrecha con código custom. Una regla práctica: si la inspección ejecuta más de tres reglas o un modelo deep learning que no cabe en la smart camera, el camino PC-based cuesta menos a tres años aunque el primer día parezca más caro.

¿Deberías escoger una cámara line scan o area scan?

El area scan cubre casi cualquier inspección de piezas discretas en fábrica: botellas, cartones, componentes mecanizados, electrónica. El line scan es la respuesta correcta para inspección de bobinas continuas (papel, film, vidrio, chapa) y para adquisiciones de muy alta resolución a lo largo de la dirección de marcha. Si tu pieza para, se fotografía y luego se mueve, el area scan es lo correcto. Si tu material se mueve de forma continua y necesitas cada milímetro a alta resolución, el line scan es lo correcto.

¿Cuánto suele llevar integrar un sistema de machine vision?

Los tiempos de integración de sistema dependen de la arquitectura. Las estaciones PC-based fixed-line suelen necesitar dos a cuatro semanas de system design, otras dos semanas de cableado e integración PLC, y otras dos a cuatro semanas de validación contra muestras doradas antes de que el responsable de la línea firme. Los deployments fleet-based comprimen la mayor parte de esto en días porque dispositivo, modelo y endpoint de red llegan preintegrados. Los equipos de ingeniería internos que ya hablan EtherNet/IP y OPC UA se ahorran otra semana en cualquiera de los caminos.

Puntos clave

Un sistema de machine vision tiene cuatro capas (cámara, iluminación, software, trigger) y convierte imágenes de producto en decisiones de aprobación o rechazo en tiempo real, normalmente por debajo del segundo.
Tres ejes arquitecturales guían la mayoría de las decisiones: rule-based contra AI, cámara única contra multi-camera, fixed-line contra fleet-based.
Tipo de sensor, setup de iluminación y modelo de deployment (PC-based, smart camera o embedded edge) moldean capex, footprint y cuánto del sistema se puede reutilizar cuando cambia el mix de producto.
Los sistemas AI-based gestionan variantes de producto y catálogos de defectos que cambian sin reprogramación, y eso cuenta sobre todo cuando tu línea hace más de tres variantes al año.
La inspección fleet-based en iPhone sustituye estaciones fijas de 80.000 euros para chequeos de superficie, verificación de montaje y presencia a una fracción del coste de vida.
El coste total de propiedad a tres años suele ganarle al precio de tarifa como mejor métrica de decisión: un sistema fixed-line a 40.000 euros de tarifa suele costar 120.000 euros en tres años.

Explore with AI

Discuss this article with your favorite AI assistant

Ask ChatGPT Ask Claude Ask Gemini

Escrito por

Korbinian Kuusisto

CEO & Founder, Enao Vision