Vergleiche

    Machine Vision Systeme 2026: der Guide zu den wichtigsten Architekturen

    Korbinian Kuusisto, CEO and founder of Enao Vision
    Korbinian KuusistoCEO & Founder, Enao Vision
    1. April 2026
    Share:
    Machine Vision Systeme 2026: der Guide zu den wichtigsten Architekturen

    Ein Machine-Vision-System verwandelt das Licht, das von einem Produkt zurückgeworfen wird, in eine Gut-Schlecht-Entscheidung in Echtzeit. Der komplette Stack hat vier Schichten: eine Kamera nimmt das Bild auf, die Beleuchtung macht den Defekt sichtbar, eine Software führt die Algorithmen aus, die das Bild analysieren und ein Urteil ausgeben, und ein Trigger leitet dieses Urteil zurück an deine SPS. Klassische, fest installierte Systeme kosten 20.000 bis 80.000 Euro pro Inspektionsstation, dazu kommen Integrator-Aufwand und Umrüstzeiten. Die Architektur, die du wählst, nicht die Marke, entscheidet, ob dieses Geld dein Problem löst.

    Die meisten Guides zu Machine-Vision-Systemen starten mit einer langen Geschichtsstunde zu CCD-Sensoren und Cognex-Übernahmen. Das überspringen wir. Wenn du eine Produktionslinie verantwortest und ein Qualitätsproblem hast, das ein menschlicher Inspektor nicht mehr stemmen kann, brauchst du drei Achsen, an denen du entscheidest, und eine grobe Idee, was jede in einer realen Produktionsumgebung kostet. Den Rest sortiert dein Integrator.

    Wo sitzen Machine-Vision-Systeme in der industriellen Automation?

    Eine moderne Fabrik läuft auf einer engen Schleife aus Automatisierungssystemen: SPS, die Förderbänder steuern, Roboterarme, die greifen und ablegen, MES-Software, die jedes Teil verfolgt, und Machine-Vision-Systeme, die als Augen des gesamten Stacks dienen. Nimmst du Vision aus der industriellen Automation heraus, bist du blind für Defekte, bis der Kunde sie meldet. Steckst du sie wieder rein, kann dieselbe Automatisierung, die Teile schon über die Linie bewegt, sie auch ausschleusen, nacharbeiten oder neu balancieren. Vision ist die Schicht, die Bewegung in Entscheidung verwandelt.

    Roboterführung ist das deutlichste Beispiel. Ein Sechsachs-Roboter kann ein zufällig orientiertes Teil nicht aus einer Kiste greifen, ohne dass ein Vision-System ihm sagt, wo das Teil liegt, wie es gedreht ist und ob es die Variante ist, die die nächste Station erwartet. Robotik und Machine Vision sind aus genau diesem Grund zusammen erwachsen geworden. Der gleiche Vision-Feed, der in Station 7 die Defekterkennung übernimmt, kann in Station 8 die Montage-Verifikation steuern und in Station 9 Korrektur-Signale in Echtzeit an die Robotik zurückspielen. Je enger die Schleife, desto weniger Ausschuss erreicht das Linienende.

    Zwei Software-Stacks dominieren die Algorithmen-Schicht. Regelbasierte Bibliotheken kodieren menschliche Expert*innen-Intuition: Kantendetektion, Blob-Analyse, Template-Matching, kalibrierte Maßprüfungen. Stacks mit Künstlicher Intelligenz, vor allem Convolutional Networks aus dem Deep Learning, lernen die gleichen Muster aus annotierten Bildern und generalisieren auf Varianten, die die Regeln nie gesehen haben. Die meisten produktionsreifen Machine-Vision-Lösungen mischen heute beides: Regelbasiert übernimmt die deterministischen Prüfungen, Deep Learning die unscharfen, kosmetischen.

    Was zählt überhaupt als Machine-Vision-System?

    Der vollständige Stack arbeitet als ein Loop: Die Kamera nimmt das Bild auf, die Beleuchtung macht den Defekt sichtbar, die Software analysiert das Bild und liefert ein Urteil, und ein Trigger plus Output spielt dieses Urteil zurück in deine SPS oder Ausschleus-Mechanik. Jede Schicht steht im Trade-off mit den anderen. Billige Beleuchtung erzwingt teurere Software. Eine schnellere Kamera kann die Trigger-Logik vereinfachen. Das System ist immer nur so gut wie seine schwächste Schicht, und genau deshalb sind die meisten gescheiterten Machine-Vision-Anwendungen in Wahrheit ein Beleuchtungsproblem im Software-Mantel.

    Alles, was einfacher ist, also etwa ein Laser-Distanzsensor oder eine Lichtschranke, ist ein Anwesenheitssensor und kein Vision-System. Alles, was größer ist, etwa eine komplette Inline-Qualitätskontroll-Station mit Robotik und Ausschleus-Toren, ist im Kern immer noch ein Vision-System, nur in mehr Hardware verpackt. Das gleiche gilt für die breitere Kategorie an Vision-Lösungen, die als schlüsselfertige Geräte verkauft werden: Unter der Haube findest du den gleichen vierschichtigen Bildverarbeitungs-Stack mit anderem Verpackungsdesign, und die Qualitätskontroll-Logik läuft am Ende durch dieselbe Trigger-Schicht.

    Wenn du tiefer in die einzelnen Komponenten einsteigen willst, also Kameras, Objektive, Beleuchtung und Software-Anbieter, schau in unseren Guide zur industriellen Bildverarbeitung, der jede Schicht des Stacks mit Referenz-Anbietern und Preisspannen durchgeht.

    Eine Zahl solltest du im Kopf behalten, bevor du weiterliest. Als Faustregel willst du mindestens 20 bis 30 Pixel über dem kleinsten Defekt haben, den du erkennen musst. Ein 0,3 Millimeter Kratzer auf einem Teil, das einen 12-Megapixel-Frame ausfüllt, ist hart. Derselbe Kratzer auf einem Teil, das einen 2-Megapixel-Frame ausfüllt, ist unmöglich. Sensorauflösung, Objektivwahl und Arbeitsabstand setzen diese Decke, bevor irgendwelche Software ins Spiel kommt.

    Was macht jede Schicht eines Machine-Vision-Systems wirklich?

    Die vier Schichten sind nicht auf jeder Linie gleich teuer oder gleich wichtig. Eine Oberflächeninspektion auf glänzendem Metall steht und fällt mit der Beleuchtung. Eine Abfüllanlage mit hoher Geschwindigkeit steht und fällt mit Kamera-Verschluss und Trigger-Latenz. Zu wissen, welche Schicht auf deiner Linie die Arbeit macht, sagt dir, wo du das Geld investieren musst. Die gleiche Logik gilt für jedes Sub-System hinter der Schaltschranktür, vom Kabel, das Strom liefert, bis zum Modul, das die Inferenz hostet.

    Kamera und Objektiv

    Die Kombination aus Kamera und Objektiv definiert, was das System physisch sehen kann. Sensorauflösung, Pixelgröße und Brennweite des Objektivs entscheiden zusammen über das Sichtfeld und das kleinste erkennbare Merkmal. Industriekameras gehen von 1-Megapixel-Global-Shutter-Sensoren ab 400 Euro bis zu 50-Megapixel-Wissenschaftssensoren oberhalb von 8.000 Euro. Moderne Smartphone-Kameras liegen bei 12 bis 48 Megapixeln mit Computational Stacking, was ein aktuelles iPhone bei den meisten Inspektionsaufgaben vor Industriekameras unter 2.000 Euro setzt, sobald man es ordentlich mountet.

    Mit der Bildaufnahme beginnt der Rest des Stacks. Eine typische, fest installierte Anlage zieht ein digitales Bild über GigE Vision, USB3 Vision oder Camera Link vom Sensor, oft via dediziertem Frame Grabber, der die Pixeldaten puffert und vorverarbeitet, bevor sie zum Host gehen. Frame Grabber waren früher Pflicht für Zeilenkameras und Hochgeschwindigkeitskameras und sind in Metrologie-Workflows, in denen jede Mikrosekunde Latenz zählt, weiterhin Standard. Moderne Ethernet-basierte Bilderfassung hat den Großteil des unteren Marktsegments aufgefressen, weil GigE-Vision-Frame-Grabber neben Standard-Netzwerkkarten laufen können. Für hochauflösende Sensoren oberhalb von 25 Megapixeln bei voller Bildrate verdienen sich dedizierte Frame Grabber ihren Platz weiter.

    Beleuchtung

    Die Beleuchtung ist die Schicht, die am häufigsten kippt, weil sie die Schicht ist, die Käufer in der Spezifikation am häufigsten überspringen. Die Umgebungs-Beleuchtungsbedingungen in einer Fabrik schwanken über Schichten, Jahreszeiten und Skylight-Winkel. Ein fest installiertes Machine-Vision-System braucht eine eigene, abgeschirmte Lichtquelle, damit das Bild, das die Kamera sieht, am Sonntag um 03:00 im Februar identisch ist mit dem am Mittwoch um 13:00 im Juli. Die Wahl der Beleuchtung (Ring, Bar, Backlight, Dome, Dunkelfeld, strukturiert) wird vom Defekt vorgegeben, nicht von Vorlieben. Stabile Beleuchtungsbedingungen sind das, was einem Modell Wiederholbarkeit über Schichten hinweg verleiht.

    Software

    Die Software trifft die eigentliche Entscheidung. Regelbasierte Bibliotheken wie Halcon, VisionPro und OpenCV matchen Muster, messen Maße und vergleichen Intensitäten gegen Schwellwerte über klassische Algorithmen (Kantendetektion, Blob-Analyse, geometrisches Matching). Stacks mit Künstlicher Intelligenz fahren Convolutional Neural Networks, meist überwachte Klassifikatoren und Detektoren, die aus ein paar hundert Referenzbildern lernen, wie "gut" aussieht. Deep Learning erlaubt dir, das händische Feature-Engineering zu überspringen und schneller live zu gehen, gerade bei kosmetischen Defekten, die klassische Algorithmen nicht beschreiben können. Zur Software-Schicht zählt auch die Inferenz-Laufzeit, die auf einem PC, einer Smart Camera, einem Embedded-Edge-Gerät oder einem Smartphone sitzen kann und die die Verarbeitungsgeschwindigkeit der gesamten Schleife bestimmt.

    Trigger und Output

    Trigger und Output sind die Verkabelung. Ein Lichttaster oder ein Encoder sagt der Kamera, wann ein Teil im Bild steht. Die Entscheidung (gut, schlecht, schlecht-mit-Grund) wird über digitales I/O, Ethernet/IP oder Profinet zurück an die SPS gegeben, die dann einen Ausschleus-Druckluftstoß, einen Roboterarm, eine Kennzeichnungs-Station oder einfach einen Zähler ansteuert. Latenzbudgets sind eng: Eine 300-Teile-pro-Minute-Linie gibt dem System 200 Millisekunden, um aufzunehmen, zu entscheiden und zu signalisieren.

    Wie unterscheidet sich regelbasierte von KI-basierter Machine Vision?

    Die älteste Spaltung in der Machine Vision verläuft zwischen regelbasierten Systemen und KI-basierten Systemen. Cognex, Keyence und jede klassische Bibliothek (Halcon, OpenCV, VisionPro) sind in der regelbasierten Welt gestartet. Das System wird programmiert, nach bestimmten Merkmalen zu suchen. Ein Loch sollte 4,2 Millimeter Durchmesser haben. Ein Logo sollte 12 Millimeter vom linken Rand sitzen. Eine Oberfläche sollte gleichmäßig grau sein mit einer Standardabweichung unter einem Schwellwert. Die Algorithmen sind deterministisch und leicht zu auditieren, und genau deshalb stützen sich Metrologie und Montage-Verifikation weiterhin auf sie.

    Regelbasiert funktioniert wunderbar, wenn dein Produkt konsistent ist, deine Defekte geometrisch sauber definiert sind und deine Beleuchtung verriegelt ist. Es bricht in dem Moment, in dem die Realität chaotisch wird. Eine andere Materialcharge, eine neue Produktvariante, eine veränderte Umgebungs-Beleuchtung durch das Skylight über der Linie, und plötzlich verdoppelt sich deine Pseudo-Ausschuss-Rate über Nacht.

    KI-basierte Systeme drehen die Logik um. Der Ansatz funktioniert in zwei Stufen. Du startest damit, dem Modell Beispiele guter Teile zu zeigen, sodass es alles markieren kann, was unüblich aussieht, was Defektkandidaten zu Tage fördert, ohne dass jemand sie vorher annotiert hat. Anschließend annotierst du diese Defekte, gruppierst sie in Klassen und trainierst überwachte Detektoren, die jeden Defekt klassifizieren. Erst dieser zweite Schritt macht den Ansatz produktionsfest, mit hoher Präzision und einem belastbaren Urteil pro Teil statt einem reinen Gut-Schlecht-Signal. Wir haben diesen Trade-off in unserer praktischen Definition von KI-Sichtprüfung aufgelöst und durchgesprochen, was jeder Ansatz im Lebenszyklus kostet, sobald er im Schaltschrank steht.

    Der praktische Unterschied zeigt sich, sobald sich deine Produktion ändert. Ein regelbasiertes System muss von einem Integrator umprogrammiert werden, das bedeutet typischerweise eine Change-Order und drei bis sechs Wochen. Ein KI-basiertes System braucht frische Referenzbilder, die ein Linien-Operator in einer Stunde sammeln kann, und du kannst das Modell weiter optimieren, ohne den Schaltschrank anzufassen. Für eine Anlage, die mehr als drei Produktvarianten pro Jahr fährt, summiert sich dieser Unterschied schnell.

    Wann brauchst du mehrere Kameras in einem Machine-Vision-System?

    Die zweite Achse ist die Frage, wie viele Blickwinkel du brauchst. Ein Single-Kamera-System ist die Standardwahl für flache oder zylindrische Produkte, die von einer Seite inspiziert werden. Etiketten auf Flaschen. Oberflächendefekte auf Blech. Druckqualität auf Kartonagen. Eine Kamera, ein Objektiv, eine Beleuchtung, eine Entscheidung.

    Multi-Kamera-Systeme kommen ins Spiel, wenn Defekte auf jeder Seite eines dreidimensionalen Teils auftreten können. Ein bearbeitetes Aluminium-Gehäuse kann vier Kameras drumherum brauchen, um Kratzer auf jeder Seite zu erwischen. Ein Spritzguss-Teil mit transparenten und opaken Bereichen kann zwei Kameras mit unterschiedlichen Beleuchtungswinkeln brauchen, die nacheinander auslösen.

    Multi-Kamera verdoppelt bis vervierfacht ungefähr deine Hardware- und Software-Kosten. Sie multipliziert auch die Synchronisations-Komplexität. Wenn Kamera 1 das Teil zum Zeitpunkt T sieht und Kamera 3 es bei T plus 80 Millisekunden sieht, muss deine Software beide Bilder dem gleichen Teil zuordnen. Klassische Systeme machen das mit SPS-getriggerten Encodern. KI-Systeme machen es mit Inferenz pro Kamera und einer geteilten Ausschleus-Logik.

    Faustregel: starte mit Single-Kamera. Geh nur auf Multi-Kamera, wenn ein Defekt-Audit zeigt, dass mehr als 15 Prozent deiner Schlupfdefekte auf Seiten passieren, die deine eine Kamera nicht sehen kann.

    Welche Sensortypen verwenden Industriekameras?

    Der Sensortyp ist die erste Hardware-Entscheidung, nachdem du regelbasiert versus KI und Single-Kamera versus Multi-Kamera gewählt hast. Welcher Typ passt, hängt davon ab, ob das Teil sich bewegt, ob du Tiefeninformation brauchst und ob der Defekt im normalen Licht überhaupt sichtbar ist. Die meisten Industriekameras kommen weiterhin mit CCD- oder, heute deutlich häufiger, CMOS-Sensoren; die Wahl zwischen beiden formt den Trade-off zwischen Pixel-Uniformität, Auslesegeschwindigkeit und Kosten.

    Flächen- und Zeilenkameras

    Flächenkameras nehmen pro Trigger einen kompletten 2D-Frame auf. Sie decken fast jede Diskret-Teil-Inspektion ab: Flaschen, Kartonagen, bearbeitete Bauteile, Elektronik-Baugruppen. Zeilenkameras nehmen pro Trigger nur eine einzelne Pixelreihe auf und sind darauf angewiesen, dass sich das Teil am Sensor vorbei bewegt, um das Bild Zeile für Zeile aufzubauen. Zeilenkameras dominieren die Bahninspektion (Papier, Folie, Stoff, Glas) und walzengetriebene Bleche, weil sie sehr hohe Auflösung in Bewegungsrichtung liefern, ohne einen riesigen Flächensensor kaufen zu müssen. Kombinier eine Zeilenkamera mit einem Frame Grabber und einer gestrobten Lichtleiste, und du inspizierst eine bewegte Bahn mit mehreren Metern pro Sekunde im Sub-Millimeter-Detail.

    3D-Vision-Systeme

    Wenn der Defekt geometrisch ist, etwa eine fehlende Schraube, eine verzogene Oberfläche oder eine falsche Höhe, reicht ein 2D-Bild oft nicht. 3D-Vision-Systeme nutzen Stereo (zwei Kameras), strukturiertes Licht (ein Projektor plus eine Kamera), Lasertriangulation (eine Laserlinie plus eine Kamera) oder Time-of-Flight-Sensoren, um Tiefe zu rekonstruieren. Sie kosten zwei- bis viermal so viel wie 2D-Systeme, weshalb die meisten Anlagen sie nur für Aufgaben einsetzen, die sie zwingend brauchen: Bin-Picking mit Roboterführung, Schweißnaht-Prüfungen, Maßhaltigkeit komplexer Bauteile.

    Hyperspektral- und Infrarot-Bildgebung

    Manche Defekte sind für eine normale RGB-Kamera unsichtbar. Feuchtigkeit unter einer Beschichtung, Verunreinigung in einem Lebensmittel, eine Delamination innerhalb einer transparenten Schicht. Nahinfrarot-, Kurzwellen-Infrarot- und Hyperspektralkameras erfassen Wellenlängenbänder, die menschliche Augen und Verbraucher-Sensoren nicht sehen. Sie sind teuer (15.000 bis 80.000 Euro pro Kamera) und langsam, also tauchen sie am häufigsten in Lebensmittel, Pharma, Landwirtschaft und Recycling auf, weniger in der allgemeinen Fertigung.

    Welche Beleuchtungs-Setups funktionieren für industrielle Vision?

    Die Wahl der Beleuchtung ist der Unterschied zwischen einem System, das ab Tag eins läuft, und einem System, das ein sechsmonatiges Tuning-Projekt nach sich zieht. Die richtige Antwort hängt von der Oberfläche, dem Defekttyp und dem nötigen Kontrast unter den normalen Beleuchtungsbedingungen auf der Linie ab.

    Ring- und Stab-Beleuchtung

    Ringlichter umgeben das Objektiv und liefern gleichmäßige, meist diffuse Ausleuchtung auf flachen oder leicht gewölbten Oberflächen. Stab-Lichter sitzen seitlich vom Teil unter einem definierten Winkel. Beide sind die Arbeitspferde der allgemeinen Inspektion: Anwesenheitsprüfungen, Etikettenleser, OCR, einfache Oberflächenkratzer auf Metall oder Kunststoff. Sie sind günstig (50 bis 400 Euro), leicht zu mounten und nachsichtig.

    Backlight, Dome und Dunkelfeld

    Backlights sitzen hinter dem Teil, sodass die Kamera eine Silhouette sieht. Sie sind unschlagbar für Maßprüfungen an opaken Teilen und für transparente Produkte, die Defekte gegen helle Hintergründe verbergen. Dome-Lichter wickeln diffuses Licht um das Teil, um spiegelnde Reflexionen auf glänzenden Oberflächen abzutöten (eloxiertes Aluminium, polierter Kunststoff, lackiertes Metall). Dunkelfeld-Beleuchtung streift die Oberfläche unter flachem Winkel, sodass Kratzer und Dellen als helle Linien gegen einen dunklen Hintergrund hervortreten, also genau das Gegenteil davon, wie Ring-Beleuchtung sie eher überstrahlt.

    Strukturierte und Laser-Beleuchtung

    Strukturiertes Licht projiziert ein bekanntes Muster (Streifen, Punkte, ein Gitter) auf das Teil, sodass die Kamera die Oberflächengeometrie aus der Verzerrung rekonstruieren kann. Es ist das Arbeitspferd der 3D-Vision in Fabriken. Laserlinien-Beleuchtung erledigt den gleichen Job für Lasertriangulations-Systeme, die hohe oder gewölbte Teile mit sehr hoher Auflösung scannen. Beide Setups brauchen dunklere Umgebungsbedingungen und kommen meist als Bündel mit dem 3D-System statt einzeln gewählt.

    Wie werden Machine-Vision-Systeme ausgerollt?

    Nach Sensor und Beleuchtung ist die nächste Entscheidung, wo die Inspektion tatsächlich läuft. Das Deployment-Modell treibt Capex, Stellfläche und wie viel des Systems sich umsetzen lässt, wenn sich der Produktmix verschiebt. Jede Option unten kommt als erkennbares Modul, das Integratoren in einen Schaltschrank stellen können.

    PC-basierte Machine Vision

    PC-basierte Systeme koppeln eine oder mehrere Industriekameras an einen dedizierten Industrie-PC, der regelbasierte oder KI-Software fährt. Sie geben dir die meiste Flexibilität (mehrere Kameras, eigene Logik, komplexe Pipelines) und den meisten Compute-Spielraum für KI-Modelle, brauchen aber den meisten Platz im Schaltschrank und den meisten Engineering-Aufwand bei der Inbetriebnahme. Typische Capex pro Station liegt zwischen 25.000 und 80.000 Euro.

    Smart Cameras

    Smart Cameras vereinen Sensor, Prozessor und I/O in einem Gehäuse. Cognex In-Sight, Keyence CV-X und Basler ace sind bekannte Beispiele für Smart Cameras, die als ein einziges Modul ausgeliefert werden. Sie sind einfacher zu installieren, billiger als eine PC-basierte Station und ideal für Single-Kamera-Inspektionen mit vorhersehbarer regelbasierter Logik. Der Trade-off ist begrenzter Compute, weshalb schwere KI-Modelle nicht immer auf Smart Cameras passen und komplexe Multi-Kamera-Setups dich zurück auf PC-basierte Architekturen drängen.

    Embedded-Edge- und flottenbasierte Geräte

    Das neueste Deployment-Modell nutzt kleine Embedded-Edge-Geräte (Jetson-Klasse, Smartphones, robuste Tablets), die KI-Inferenz auf dem Gerät laufen lassen und sich an ein Backend für Flottenverwaltung und Modell-Updates anbinden. iPhones in dieser Kategorie bringen 12-Megapixel-Global-Shutter-Sensoren, eine A-Series-Neural-Engine, die Convolutional-Modelle in Echtzeit fahren kann, und einen Hardware-Lifecycle von fünf Jahren auf einem Gerät, das die Operatoren ohnehin schon bedienen. Genau das macht flottenbasierte Inspektion kommerziell tragfähig.

    Was sind die häufigsten Machine-Vision-Anwendungen?

    Fünf Machine-Vision-Anwendungen decken den Großteil der installierten Kapazität in der Stückgüter-Fertigung ab. Defekterkennung auf kosmetischen und strukturellen Fehlern ist der Headline-Use-Case: Kratzer, Dellen, Lunker, Verunreinigungen und fehlende Merkmale. Die Montage-Verifikation bestätigt, dass eine mehrstufige Baugruppe die Zelle mit jeder Schraube, jedem Etikett und jedem Bauteil am richtigen Ort und in der richtigen Orientierung verlassen hat. Barcode- und DPM-Lesung (Direct Part Marking) treibt die Rückverfolgbarkeit über Verpackung, Automotive und Elektronik. Metrologie misst kritische Maße gegen Konstruktionstoleranzen und ersetzt häufig manuelles Lehren. Die Roboterführung speist Teilelagen in einen Roboterarm, sodass er Teile greifen, ablegen und ausrichten kann, die nicht perfekt fixiert sind.

    Zwei weitere Anwendungen runden die Liste ab. Die erste ist die Anwesenheits- und Vollständigkeitsprüfung, die einfachste aller Funktionen: Ist die Dichtung am Platz, ist der Deckel zu, ist die Verschluss-Sicherung intakt. Die zweite ist Pattern Matching für hochwertige Ausrichtung, die Dosierköpfe, Lasermarkierer und Pick-and-Place-Maschinen mit einem Referenzrahmen versorgt. Jeder dieser Use-Cases lebt oder stirbt mit der Validierung gegen Ground Truth, weshalb ein Pilot mit 200 bis 500 annotierten Bildern mehr wert ist als drei Monate Lieferanten-Demos.

    Wiederholbarkeit ist das, was ein Vision-System, das ein reales Qualitätsproblem löst, von einem unterscheidet, das nach dem ersten Produktwechsel driftet. Ein nützlicher Feldtest ist es, dieselben 50 Gut- und 50 Schlecht-Teile über drei aufeinanderfolgende Schichten durch das System zu fahren. Wenn das Urteil pro Teil jedes Mal identisch ist, hast du Wiederholbarkeit. Wenn zwei der 50 Teile beim Schichtwechsel kippen, ist deine Beleuchtung oder dein Modell das Problem, nicht die Optik, und du hast Arbeit, bevor du Toleranzen weiter ziehst.

    Was ist der Unterschied zwischen fest installierter und flottenbasierter Machine Vision?

    Die dritte Achse ist die jüngste, und sie wird in den meisten Guides bis heute übersehen. Traditionell war jede Inspektionsstation fest installiert. Eine Kamera auf einer starren Halterung, ein Ringlicht, ein abgedichtetes Gehäuse, verkabelt zu einem Controller im Schaltschrank. Installation dauert zwei bis vier Wochen. Inbetriebnahme noch einmal zwei. Die Station kann nicht bewegt werden, ohne neu in Betrieb genommen zu werden.

    Flottenbasierte Inspektion ist die mobile Alternative, die in den letzten zwei Jahren praktisch geworden ist, getrieben von kleinen Sensorformfaktoren (moderne Smartphones sind heute die hochauflösendsten Industriekameras, die sich die meisten Fabriken leisten können) und KI auf dem Gerät. Ein flottenbasiertes System ist eine Menge tragbarer Inspektionsgeräte, die jede Operator*in greifen, vor die Linie stellen und für eine Stichprobe oder eine 100-Prozent-Prüfung in derselben Produktionsumgebung und auf demselben Fertigungsprozess nutzen kann, für den die Linie gebaut wurde.

    Das ist aus drei Gründen wichtig. Erstens zahlst du pro Inspektionsaufgabe, nicht pro Kamera, die an einem Rahmen verschraubt ist, sodass eine neue Inspektionsstelle eine Schicht-Entscheidung wird statt eines Capex-Projekts. Zweitens kann die gleiche Hardware montags, mittwochs und freitags drei verschiedene Produktionslinien inspizieren, wenn die Taktzeit es zulässt. Drittens kann die Inspektion mit dem Produkt mitwandern: in eine Pre-Packing-Station, auf einen Wagen am Ende eines Engpasses, in ein Qualitätslabor für tiefere Stichproben. Dieselbe Flotte deckt viele Anwendungsfälle ab, ohne dass für jeden neue Optik gekauft werden muss.

    Das Mounting-Setup macht das in einer realen Anlage erst praktisch. Mit einer Magnetklemme, einem Stativ oder einer Festposition-Halterung lässt sich dasselbe iPhone in 90 Sekunden an einer Station aufstellen und nach der Mittagspause an der nächsten neu positionieren. Unser Guide zur iPhone-Halterung für Produktionslinien geht die drei Muster durch, die wir am häufigsten sehen, was jedes kostet und wo jedes scheitert.

    Bei Enao fokussieren wir genau auf diese Kategorie. Als Startup, das flottenbasierte Machine-Vision-Lösungen ausliefert, sitzt unser Wedge genau dort, wo sich fest installierte Anbieter aus dem Markt preisen. Ein flottenbasiertes Setup mit einem iPhone und einem 80-Euro-Ringlicht ersetzt eine 80.000-Euro-Festinstallation für einen nutzbaren Teil der Inspektionsaufgaben, vor allem dort, wo Stückzahlen oder Varianten eine Festinstallation unrechtfertigbar machen.

    Welche Machine-Vision-Architektur passt zu welcher Produktionslinie?

    Die drei Achsen ergeben acht Kombinationen. In der Praxis decken fünf davon fast jedes Inspektionsproblem in der Stückgüter-Fertigung ab. Die folgende Liste mappt Linienmuster auf die Architektur, die zu den Anforderungen deiner Anwendung passt.

    • Hochvolumige Single-Produkt-Linie, Defekte geometrisch sauber definiert, eine Seite: regelbasiert, Single-Kamera, fest installiert. Denke an Abfüllung, Etikettendruck, Maßprüfungen an Dichtungen. Capex 25.000 bis 50.000 Euro, Payback unter zwei Jahren bei einer Schlupfquote über 0,3 Prozent.
    • Mittelvolumige Linie mit häufigen Variantenwechseln, Defekte kosmetisch und gemischt: KI-basiert, Single-Kamera, flottenbasiert. Denke an Möbelteile, bearbeitete Bauteile, lackierte Gehäuse. Capex unter 5.000 Euro zum Start, skaliert linear mit der Anzahl der Stationen.
    • Dreidimensionales Teil, das auf allen Seiten geprüft wird, stabiler Defektkatalog: KI-basiert, Multi-Kamera, fest installiert. Denke an bearbeitete Aluminiumgehäuse, Spritzguss-Teile mit kritischen Oberflächen. Capex 50.000 bis 120.000 Euro, gerechtfertigt, wenn die Schlupfkosten pro Teil über 5 Euro liegen.
    • Endloses Bahnmaterial bei hoher Geschwindigkeit: regelbasiert, einzelne Zeilenkamera, fest installiert. Denke an Papier, Folie, Glas, Blech. Capex 30.000 bis 80.000 Euro, häufig durch KI ergänzt oder ersetzt für kosmetische Prüfungen.
    • Neue Inspektionsaufgabe auf einer Linie, deren Defektkatalog noch unbekannt ist: KI-basiert, Single-Kamera, flottenbasiert. Denke an ein frisch redesigntes Teil, einen neuen Lieferanten, ein Reklamationscluster, das du noch nicht eingrenzen kannst. Capex unter 2.000 Euro zum Start, Migration auf eine Festinstallation erst, wenn der Defektkatalog stabil ist.

    Das letzte Muster ist das, was die meisten Käufer falsch machen. Sie spezifizieren ein fest installiertes Multi-Kamera-Regelbasis-System für eine Linie, auf der niemand weiß, wie der Defektkatalog aussieht. Sechs Monate später besitzen sie ein 90.000-Euro-System, das drei der sieben relevanten Defekte erkennt. Im ersten Jahr flottenbasiert zu starten und erst dann auf eine Festinstallation zu migrieren, wenn der Defektkatalog stabil ist, spart üblicherweise zwei Drittel der Lebenszykluskosten.

    Für die Finanzseite dieses Trade-offs haben wir die Capex-versus-Opex-Rechnung in einer Beschaffungs- und Budget-Notiz für KI in der Fertigung durchgespielt, und das ist das Modell, das wir neue Kunden bitten, mit ihren eigenen Linienkennzahlen zu füllen.

    Welche Industrien treiben die Machine-Vision-Nachfrage?

    Drei Industrien stemmen den Großteil der weltweiten Machine-Vision-Ausgaben. Automobilwerke fahren Vision an jeder Schweißzelle, jeder Lackierkabine und jeder Endmontage-Station, mit strengen Toleranzen an Karosserieblechen und Motor-Sub-Systemen. Halbleiter-Fabriken stützen sich an jedem Schritt auf Vision, von der Wafer-Inspektion über Die-Bonding bis hin zur Gehäuse-Markierung, mit Submikrometer-Wiederholbarkeit bei Geschwindigkeiten weit über dem, was menschliche Inspektor*innen schaffen. Die Luftfahrt lebt in kleineren Stückzahlen, aber engeren Toleranzen, in denen jede Anzugs-Marke einer Schraube, jede Schweißnaht und jede Composite-Lage rückverfolgbar gegen den Build-Record validiert werden muss.

    Außerhalb dieser drei ist Machine Vision heute fest verbaut in Lebensmitteln und Getränken, Pharma, Elektronik, Verpackung, Logistik, Recycling sowie zunehmend in Möbel und Mode. Der gemeinsame Nenner ist ein Fertigungsprozess, in dem Defekte teuer genug sind, dass es sich mehrfach auszahlt, sie vor dem Versand zu fangen. Wo Stückzahlen kleiner oder Varianten häufiger sind, schlagen flottenbasierte Systeme fest installierte Stationen oft im TCO. Wo Stückzahlen groß und das Produkt stabil ist, gewinnt fest installierte Vision weiterhin.

    Wie integrieren sich Machine-Vision-Systeme in SPS und MES?

    Ein Machine-Vision-System, das nicht mit dem Rest der Linie reden kann, ist eine sehr teure Polaroid-Kamera. Die Frage der Systemintegration ist das, was eine Station, die Defekte erkennt, von einer Station unterscheidet, die tatsächlich Durchsatz, Ausschuss und Rückverfolgbarkeit auf den Kennzahlen verändert. Systemintegratoren nehmen echtes Geld dafür, die Lücke zwischen einer funktionierenden Kamera und einer funktionierenden Linie zu schließen.

    Auf der SPS-Seite veröffentlichen Vision-Systeme Gut-Schlecht- und Fehler-Signale über digitales I/O für einfache Fälle und über Ethernet/IP, Profinet oder Modbus TCP für reichere Daten wie Defektklasse, Position und Bild-ID. Ein Ausschleusimpuls, eine Markier-Auslösung, ein Robotergriff oder ein Stop-the-Line-Befehl liegen typischerweise alle in der SPS und werden durch das Vision-Urteil im selben Scan-Zyklus ausgelöst. Latenzbudgets zwischen 50 und 200 Millisekunden sind normal.

    Auf der MES- und Qualitätsseite streamt das System jede Entscheidung in eine Datenbank, häufig mit dem Quellbild im Anhang. Dieser Feed ist das, was Pareto-Diagramme der Fehlerursachen, Chargen-Genealogie auf schlechten Teilen und die SPC-Dashboards speist, auf die Qualitätsmanager*innen tatsächlich schauen. Cloud-angebundene flottenbasierte Systeme machen das nativ, weil sie netzwerk-first ausgelegt sind. Ältere Festinstallationen brauchen häufig einen dedizierten SCADA- oder Historian-Konnektor, was eine der versteckten Kosten in ihrem 3-Jahres-TCO ist. Interne IT-Teams, die das MES-Backbone bereits managen, sparen meist Wochen, wenn sie den Vision-Feed wie irgendeinen anderen Netzwerk-Endpunkt behandeln, statt wie eine Bastel-Serial-Anbindung.

    Wie sieht der ROI eines Machine-Vision-Systems aus?

    Drei Zahlen treiben die Payback-Rechnung: die Kosten der Defekte, die das System fängt, die Arbeit, die es ersetzt oder ergänzt, und die eigenen Lebenszykluskosten. Eine Linie, die 200.000 Teile pro Jahr versendet, mit einer Schlupfquote von 0,5 Prozent bei 12 Euro pro Defekt (Nacharbeit, Kunden-Gutschrift, Logistik), verliert 12.000 Euro pro Jahr, bevor irgendein Vision-System ins Spiel kommt. Wenn 80 Prozent dieser Schlüpfer gefangen werden, zahlt sich ein flottenbasiertes 25.000-Euro-System in 2,6 Jahren zurück und eine 90.000-Euro-Festinstallation in 9,4 Jahren.

    Arbeitsreduktion ist der zweite Hebel. Eine Vollzeit-Inspektor*in mit voll belasteten Kosten von 50.000 Euro pro Jahr ist das Budget, gegen das automatisierte Inspektion antritt. Deckt das System 60 Prozent der Aufgaben dieser Person ab, sind das 30.000 Euro pro Jahr Einsparung, was die meisten flottenbasierten Deployments für sich genommen in unter 12 Monaten zurückzahlt und die Inspektor*in für die schwierigeren Fälle freisetzt, die sie weiter optimieren kann.

    Der dritte Hebel ist stromaufwärts. Einen Defekt an Station 4 statt am Linienende zu fangen, spart die Wertschöpfungskosten jeder Operation zwischen diesen beiden Punkten. Auf einer 12-Schritt-Montagelinie sind das oft drei bis fünf Euro pro Teil zusätzlich zur ursprünglichen Defekt-Kosten. ROI-Modelle, die diese Upstream-Einsparung ignorieren, unterschätzen den Wert von Inline-Vision um 30 bis 50 Prozent.

    Wie shortlistest du Machine-Vision-Systeme ohne Reue?

    Drei Fragen halbieren die meisten Shortlists. Sie mappen direkt auf die Anforderungen deiner Anwendung, die deine Linie tatsächlich hat, nicht auf die Feature-Liste, gegen die ein Anbieter verkaufen will.

    Erstens, wie viele Varianten muss das System im ersten Jahr fahren? Wenn die Antwort mehr als drei ist, ist regelbasiert fast sicher die falsche Wahl, egal wie niedrig dein Preis pro Teil ist.

    Zweitens, was passiert, wenn sich der Defektkatalog ändert? Frag den Anbieter nach dem genauen Prozess und Zeitplan, eine neue Defektklasse nach Go-Live aufzunehmen. Eine gute Antwort wird in Stunden gemessen und kann von einer Linien-Operator*in gemacht werden. Eine schlechte Antwort wird in Wochen gemessen und braucht einen Vor-Ort-Besuch. Die gleiche Frage gilt fürs Modell-Retraining, für Änderungen am Systemdesign und für jedes Re-Tuning, das die eigenen Engineers des Anbieters hinter den Kulissen erledigen müssen.

    Drittens, wie hoch sind die Total Cost of Ownership über drei Jahre, nicht der Listenpreis? Ein fest installiertes regelbasiertes System mit 40.000 Euro Listenpreis kostet über drei Jahre häufig 120.000 Euro, sobald du Integration, Umprogrammieren bei Produktwechseln und den Wartungsvertrag mitrechnest. Ein flottenbasiertes KI-System für 500 Euro pro Gerät pro Monat sind 18.000 Euro über drei Jahre und deckt Updates ab.

    Wenn du tiefer in die Auswahlkriterien einsteigen willst, listet unser Buyer's Guide für Sichtprüfungs-Software die zehn funktionalen Fragen auf, die wir bei Kunden immer wieder hören als die, die sie vor der Unterschrift gerne gestellt hätten.

    Wie startest du mit einem Machine-Vision-System?

    Wenn du gerade Machine-Vision-Systeme evaluierst, lernst du am schnellsten, was zu deiner Linie passt, indem du einen zweiwöchigen Piloten an einer Inspektionsaufgabe fährst. Wähl den Defekt, der die meisten Reklamationen verursacht, sammle 200 Referenzbilder von guten Teilen und schau, ob ein KI-System die schlechten markieren kann, ohne dass es vorab gesagt bekommt, wonach es suchen soll.

    Ein flottenbasierter iPhone-Pilot kostet unter 1.000 Euro Hardware. Du brauchst ein refurbished iPhone, eine Lampe, Kabel und eine Halterung. Ein klassisches fest installiertes System kostet 60.000 Euro, nur um zu einem Angebot zu kommen. Das Experiment ist billiger als das Lastenheft, und die hochwertigen Bilder, die ein modernes Smartphone produziert, reichen aus, um zu validieren, ob das Inspektionsproblem überhaupt lösbar ist, bevor irgendein Beschaffungszyklus startet.

    Für eine kuratierte Shortlist KI-basierter Anbieter in diesem Bereich schau in unseren Vergleich der besten KI-Machine-Vision-Systeme für 2026, der acht Anbieter nach Integrationstiefe, Time-to-First-Inspection und Total Cost of Ownership scort.

    Häufig gestellte Fragen

    Wie genau ist ein Machine-Vision-System auf einer Produktionslinie?

    Die Genauigkeit am Tag eins liegt für gut definierte Defekte bei 80 bis 90 Prozent für KI-Systeme und bei 90 bis 99 Prozent für regelbasierte Systeme bei einfachen binären Prüfungen. Nach Feedback-Schleifen auf Produktionsdaten klettert die KI-Genauigkeit auf 95 bis 99 Prozent, während die regelbasierte Genauigkeit dort bleibt, wo sie startet, aber in dem Moment bricht, in dem Produkte variieren. Die Zahl, die du tatsächlich bekommst, hängt von den Beleuchtungsbedingungen, der Größe und Qualität der Trainingsdaten und davon ab, wie groß der Defekt im Verhältnis zu den Pixeln des Sensors ist.

    Wie lange dauert die Installation eines Machine-Vision-Systems?

    Klassische fest installierte Systeme brauchen vier bis acht Wochen vom Bestelleingang bis zur ersten Inspektion: zwei bis vier Wochen für Hardware-Lieferung und Installation, dann zwei weitere für Inbetriebnahme und Regel-Programmierung. Flottenbasierte KI-Systeme laufen in Tagen. Du packst ein iPhone aus, klickst es in eine Halterung, trainierst ein Modell auf 200 Referenzbildern und startest die Inspektion. Der Trade-off ist, dass fest installierte Systeme höheren Durchsatz fahren, sobald sie laufen, während flottenbasierte Systeme sich leichter umsetzen lassen, wenn sich der Produktmix ändert.

    Kann ein Machine-Vision-System mehrere Produktvarianten verarbeiten?

    KI-basierte Systeme verarbeiten Varianten gut. Du sammelst pro Variante ein paar hundert neue Referenzbilder, und das Modell adaptiert in Stunden. Regelbasierte Systeme tun sich mit Varianten schwer, weil jedes neue Produkt typischerweise einen Integrator-Besuch und eine frische Programmier-Runde braucht. Wenn deine Linie mehr als drei Varianten pro Jahr fährt, rechne diesen Unterschied in deine Total Cost of Ownership ein, bevor du den Auftrag unterschreibst.

    Wie viel kostet ein Machine-Vision-System 2026?

    Fest installierte Systeme kosten 20.000 bis 80.000 Euro pro Inspektionsstation, plus Integrator-Honorare von 5.000 bis 15.000 Euro und einen jährlichen Wartungsvertrag. Flottenbasierte KI-Systeme auf iPhones kommen mit unter 1.000 Euro Hardware (refurbished iPhone, Lampe, Halterung, Kabel) und einem Software-Abo, das typischerweise 300 bis 600 Euro pro Gerät pro Monat liegt. Über drei Jahre hat die Architektur, die du wählst, mehr Einfluss auf die Gesamtkosten als die Marke oder die Feature-Liste.

    Smart Camera oder PC-basiert: Welches Deployment-Modell ist besser?

    Smart Cameras gewinnen bei einfachen Single-Kamera-Inspektionen, bei denen die Logik vorhersehbar ist und die Linie wenig Platz hat. PC-basierte Systeme gewinnen, wenn du mehrere Kameras, komplexe Pipelines, schwere KI-Modelle oder enge Integration mit eigenem Code brauchst. Eine praktische Regel: wenn die Inspektion mehr als drei Regeln oder ein Deep-Learning-Modell fährt, das nicht auf die Smart Camera passt, ist der PC-basierte Pfad über drei Jahre günstiger, auch wenn er am Tag eins teurer aussieht.

    Solltest du eine Zeilen- oder eine Flächenkamera wählen?

    Flächenkameras decken fast jede Diskret-Teil-Inspektion in der Fertigung ab: Flaschen, Kartonagen, bearbeitete Bauteile, Elektronik. Zeilenkameras sind die richtige Antwort für kontinuierliche Bahninspektion (Papier, Folie, Glas, Blech) und für sehr hochauflösende Erfassung in Bewegungsrichtung. Wenn dein Teil stoppt, fotografiert wird, dann weiterläuft, ist Flächenkamera richtig. Wenn dein Material sich kontinuierlich bewegt und du jeden Millimeter hochauflösend brauchst, ist Zeilenkamera richtig.

    Wie lange dauert die Systemintegration eines Machine-Vision-Systems?

    Die Zeitpläne der Systemintegration hängen von der Architektur ab. Fest installierte PC-basierte Stationen brauchen typischerweise zwei bis vier Wochen Systemdesign, weitere zwei Wochen Verkabelung und SPS-Integration und nochmal zwei bis vier Wochen Validierung gegen Goldenmuster, bevor die Linienverantwortliche abnimmt. Flottenbasierte Deployments verdichten den Großteil davon auf Tage, weil Gerät, Modell und Netzwerk-Endpunkt vorintegriert sind. Interne Engineering-Teams, die Ethernet/IP und OPC UA bereits sprechen, sparen auf beiden Pfaden eine weitere Woche.

    Kernaussagen

    • Ein Machine-Vision-System hat vier Schichten (Kamera, Beleuchtung, Software, Trigger) und wandelt Produktbilder in Echtzeit in Gut-Schlecht-Entscheidungen um, üblicherweise in unter einer Sekunde.
    • Drei Architektur-Achsen treiben die meisten Entscheidungen: regelbasiert versus KI, Single-Kamera versus Multi-Kamera und fest installiert versus flottenbasiert.
    • Sensortyp, Beleuchtungs-Setup und Deployment-Modell (PC-basiert, Smart Cameras oder Embedded Edge) formen Capex, Stellfläche und wie viel des Systems sich umsetzen lässt, wenn sich der Produktmix verschiebt.
    • KI-basierte Systeme verarbeiten Produktvarianten und sich ändernde Defektkataloge ohne Umprogrammierung, was am stärksten zählt, wenn deine Linie mehr als drei Varianten pro Jahr fährt.
    • Flottenbasierte Inspektion auf iPhones ersetzt 80.000-Euro-Festinstallationen für Oberflächen-, Montage-Verifikations- und Anwesenheitsprüfungen zu einem Bruchteil der Lebenszykluskosten.
    • Total Cost of Ownership über drei Jahre schlagen üblicherweise den Listenpreis als bessere Entscheidungskennzahl: Ein fest installiertes System mit 40.000 Euro Listenpreis kostet über drei Jahre oft 120.000 Euro.

    Jetzt starten

    Möchtest Du sehen, wie Enao Vision auf Deiner Linie funktioniert? Du kannst kostenlos starten mit einem iPhone, das Du schon hast, oder der Community beitreten, um Dich mit anderen Qualitäts- und Produktionsteams auszutauschen, die KI auf den Shopfloor bringen.

    Explore with AI

    Discuss this article with your favorite AI assistant

    Korbinian Kuusisto, CEO and founder of Enao Vision

    Verfasst von

    Korbinian Kuusisto

    CEO & Founder, Enao Vision