对比

机器视觉系统 2026：主流架构完整指南

Korbinian KuusistoCEO & Founder, Enao Vision

April 1, 2026

机器视觉系统把产品反射的光实时转换为合格/不合格判定。整个堆栈由 4 个层组成。相机采集图像，光源让缺陷可见，软件运行算法分析图像并返回判定，触发器把判定送达 PLC。传统 fixed-line 系统每个检测工位 20,000 到 80,000 欧元，再加上集成商的工时和换型停机时间。决定这笔费用是否解决问题的不是品牌，而是架构选择。

关于机器视觉系统的大多数指南，开篇都从 CCD 传感器的历史或者 Cognex 的并购故事讲起。这些我们跳过。如果你正在运营一条产线，存在仅靠人工无法兜住的质量问题，你需要理解的是 3 个判断维度，以及每个维度在现场实际大概要花多少钱。其余都是集成商替你处理的细节。

机器视觉系统在工业自动化中处于什么位置

今天的工厂运行在一张紧密的自动化系统闭环之上。指挥传送带的 PLC、执行 pick-and-place 的机械臂、跟踪每个零件的 MES 软件，以及作为整个堆栈眼睛的机器视觉系统。从工业自动化里把视觉拿掉，缺陷就要等到客户告诉你才被看见。把它装回去，那条已经在产线上搬动零件的同一套自动化，就能就地完成不良品剔除、返工和再平衡。视觉是把运动转成判定的那一层。

机器人引导是最清楚的例子。6 轴机械臂离开视觉系统就无法从料箱里抓起随机摆放的零件，因为必须有人告诉它零件的位置、旋转姿态，以及是不是下一道工序所期望的那个变体。这就是机器人技术和机器视觉一直一起成长的原因。在 7 号工位负责缺陷检测的同一路视频流，可以引导 8 号工位的装配验证，并向 9 号工位的机器人发出实时校正信号。闭环越紧，从产线末端流出去的不良品就越少。

算法这一层由两类软件堆栈主导。rule-based 库把熟练操作员的直觉编码成代码：边缘检测、blob 分析、模板匹配、尺寸测量校正。AI，特别是 deep learning 的卷积网络，从打过标签的图像中学到同样的模式，并把它泛化到规则未曾见过的变体上。今天大多数量产级的机器视觉解决方案两者并用,结构化的检查交给 rule-based,杂乱的外观缺陷交给 deep learning。

什么算机器视觉系统

整个堆栈作为单个闭环运行。相机采集图像，光源让缺陷可见，软件运行算法分析图像并返回判定，触发器和输出把判定送到 PLC 或剔除机构。每一层都在补另一层的短板。便宜的光源会要求更贵的软件。快的相机可以简化触发逻辑。系统的能力以最弱的那一层为上限。这就是为什么大多数失败的机器视觉项目，本质上是光源问题伪装成了软件问题。

比这更简单的，比如激光距离传感器或光电传感器，不是视觉系统而是有无传感器。比这更大的，比如带机械臂和剔除门的整套在线质量控制工位，本质上仍然是一套视觉系统，只是被更多硬件包裹起来。以 turnkey 方式销售的广义 vision solutions 也一样。掀开外壳，里面还是同样的 4 层图像处理堆栈装在不同的封装里，quality control 逻辑最终都要走同一条触发层。

如果想深入到单个组件、相机、镜头、光源、软件厂商，请看工业图像处理指南。它把堆栈每一层连同参考厂商和价位段一起拆开来讲。

在继续往下看之前，有一个数字值得记到脑子里。一个经验法则是，对你想要检出的最小缺陷尺寸，至少需要 20 到 30 个像素。一个填满 12 兆像素帧的零件上的 0.3 毫米划痕，是临界条件。同样的划痕落在一个填满 2 兆像素帧的零件上，就不可能。在软件介入之前，传感器分辨率、镜头选型和工作距离已经决定了这个上限。

机器视觉系统的每一层实际在做什么

4 个层在不同产线上的重要性和成本并不均等。抛光金属表面检测的胜负在光源。高速包装线的胜负在快门速度和触发延迟。知道你这条线上是哪一层在干活，就知道钱该花在哪一层。同样的逻辑适用于机柜里所有的子系统，从输送电力的电缆到承载推理的模块。

相机和镜头

相机和镜头的组合定义了系统在物理上能看见什么。传感器分辨率、像素尺寸和镜头焦距共同决定视场和最小可检细节。工业相机的跨度很宽，从 400 欧元的 1 兆像素 global-shutter 传感器，到超过 8,000 欧元的 50 兆像素科研级传感器。最近的智能手机相机，含计算合成在内位于 12 到 48 兆像素，这让最近几代 iPhone 在可处理的检测任务上，胜过大多数 2,000 欧元以下的工业相机。

图像采集是其余堆栈开始的起点。在典型的 fixed-line 配置里，数字图像通过 GigE Vision、USB3 Vision 或 Camera Link 从传感器取出。有时还要走一块专用的图像采集卡，在把像素数据交给主机之前完成缓冲和预处理。图像采集卡过去对 line scan 相机和高速相机是必备，今天在那些微秒级延迟才算数的计量流程里仍然常见。基于 Ethernet 的图像采集吃下了市场的下半段，因为 GigE Vision 图像采集卡可以和成品 NIC 并排工作。在满帧率下高于 25 兆像素的高分辨率传感器上，专用图像采集卡仍然有它的位置。

光源

光源是最常出问题的一层，因为它也是采购在选型阶段最容易跳过的一层。工厂里的环境光会随班次、季节、天窗进光的角度而变化。固定式的机器视觉系统需要自己的遮蔽光源，这样相机在 2 月星期天凌晨 3 点和 7 月星期三下午 1 点看到的画面才能保持一致。光源的选型（ring、bar、backlight、dome、dark field、structured）由缺陷决定，不是凭口味。稳定的照明条件，才是模型在跨班次仍然可复现的前提。

软件

真正下判定的是软件。Halcon、VisionPro、OpenCV 这类 rule-based 库用经典算法（边缘检测、blob 分析、几何匹配）做模板匹配、尺寸测量、强度阈值比较。AI 堆栈跑卷积神经网络，特别是有监督的分类器和检测器，从几百张参考图像里学到什么算「合格」。Deep learning 让你可以跳过手工特征工程，对那些经典算法描述不出来的外观缺陷更快投产。软件层还包含推理 runtime，跑在 PC、smart camera、嵌入式 edge 设备或智能手机上，决定了整个闭环的吞吐速度。

触发器和输出

触发器和输出是管路。光电传感器或编码器告诉相机零件何时进入画面。判定（pass、fail、带原因的 fail）通过数字 I/O、EtherNet/IP 或 Profinet 回到 PLC，再去驱动剔除气阀、机械臂、打标工位或者一只简单的计数器。延迟预算很紧。在每分钟 300 件的产线上，从拍照到下判定再到通知信号，只有 200 毫秒的余量。

rule-based 和 AI-based 机器视觉怎么比较

机器视觉里最古老的分界，是 rule-based 系统和 AI-based 系统之间的分界。Cognex、Keyence 以及所有经典库（Halcon、OpenCV、VisionPro）都从 rule-based 这一边出发。系统被编程去寻找特定特征：某个孔必须是 4.2 毫米直径；logo 必须距左边 12 毫米；某个表面必须是均匀灰度并且标准差低于阈值。算法是确定性的、易于审计的，所以计量和装配验证至今仍然依赖它。

rule-based 在产品一致、缺陷有几何定义、光源被遮蔽时表现非常好。一旦现实变得杂乱，它就崩溃。一批不一样的原材料、一个新的产品变体、产线上方天窗带来的环境光波动，都足以让误剔除率一夜翻倍。

AI-based 系统把逻辑反过来。这种思路分两步运转。先训练模型认识合格件的样本，让它把看上去不寻常的东西标出来。还没人打过标签，缺陷候选就先浮上来了。然后给这些缺陷打标签，按类型分组，再训练一个有监督的检测模型去分类每一种类型。第二步让这种思路在量产里站得住，并对每个零件给出高精度且可执行的判定，而不只是一个简单的合格/不合格信号。我们在AI 外观检测的实用定义里拆解了这几种取舍，并写了让每条路线在机柜里活得下去的成本。

实际差别在于：当生产发生变化时会怎样。rule-based 系统需要集成商重新编程，通常意味着一份变更指令和 3 到 6 周。AI-based 系统需要的是新的参考图像，产线作业员一个小时内就能拍齐，模型在不动机柜的情况下就完成调整。在每年要走 3 个以上变体的工厂里，这种差别会很快累积。

什么时候机器视觉系统需要多台相机

第二个维度是需要多少个角度。单相机系统是从单面检测的平面或圆柱形产品的默认选项。瓶身上的标签。钣金的表面缺陷。瓦楞纸板上的印刷质量。1 台相机、1 个镜头、1 套光源、1 次判定。

Multi-camera 系统出现在缺陷可能落在三维零件任何一个面上的场景。一只铝合金机加工外壳可能需要四周布 4 台相机，去抓住每一面的划痕。一只同时含透明区域和不透明区域的注塑零件，可能需要 2 台用不同光源角度依次触发的相机。

Multi-camera 把硬件和软件成本大致放大 2 到 4 倍。同步的复杂度也翻倍。如果相机 1 在时间戳 T 看到一个零件，相机 3 在 80 毫秒后才看到，软件就必须把这两帧缝到同一个零件 ID 上。经典系统靠 PLC 触发的编码器来做这件事；AI 系统靠每相机一份的推理加上一层共享的剔除逻辑来做。

经验法则：先从单相机起步。只在缺陷审计显示有 15% 以上的漏检发生在单相机够不到的面上时，才升级到 multi-camera。

工业相机使用什么传感器

传感器类型是在你定下 rule-based 还是 AI、单相机还是 multi-camera 之后的第一个硬件决定。选哪一种取决于零件是否在动、是否需要深度信息、缺陷在普通光下是否可见。大多数工业相机仍然出货 CCD 传感器，或者今天更常见的 CMOS 传感器，两者之间的选择是在像素均匀性、读出速度和成本之间做平衡。

Area scan 相机 vs line scan 相机

Area scan 相机每次触发采集一整张 2D 帧，覆盖了几乎所有离散件检测，包括瓶子、瓦楞纸板、机加工零件、电子组件。Line scan 相机一次只采集一行像素，依靠从传感器面前经过的零件，把图像逐行拼起来。Line scan 主导着连续幅检测（纸张、薄膜、织物、玻璃）以及成卷的钣金，因为它能在不必买一块巨大面阵传感器的前提下，沿着前进方向得到非常高的分辨率。Line scan 相机加图像采集卡再加 strobe bar light，能在每秒数米的速度下，以亚毫米细节检测移动的幅材。

3D 视觉系统

如果缺陷是几何性的，比如缺失的螺丝、变形的表面、错误的高度，2D 图像往往不够。3D 视觉系统通过立体 CCD（2 台相机）、structured light（投影仪加相机）、激光三角测量（激光线加相机）或 time-of-flight 传感器来重建深度。它的成本是 2D 系统的 2 到 4 倍，所以大多数工厂只把它用在必需的任务上：机器人引导的 bin picking、焊缝检测、复杂零件的尺寸验证。

高光谱和红外成像

也有一些缺陷在普通 RGB 相机下看不见。涂层下的水分、食品里的异物、透明层里的脱层。Near-infrared、short-wave infrared 和高光谱相机能抓到人眼或消费级传感器看漏的波段。它贵（每台相机 15,000 到 80,000 欧元）也慢，所以在食品、制药、农业、回收行业里出现得比一般制造业更多。

工业视觉可以选用哪些光源方案

光源选择恰恰是「第一天就能跑」和「拖一个 6 个月调参项目」之间的分水岭。正确答案取决于表面、缺陷类型，以及在产线本身光照条件下需要的对比度。

Ring light 和 bar light

Ring light 围在镜头外圈，对平面或微弯表面提供主要为漫反射的均匀照明。Bar light 以受控角度布置在零件侧面。它们是常规检测的主力：有无判定、标签读取、OCR、金属或塑料表面的简单划痕。便宜（50 到 400 欧元），安装简单，对失误宽容。

Backlight、dome、dark field

Backlight 放在零件后面，让相机看到剪影。在不透明零件的尺寸检查上，或者在那些把缺陷藏在亮背景里的透明产品上，没有对手。Dome 光以漫射光把零件包起来，把抛光面（阳极氧化铝、抛光塑料、漆面金属）上的镜面反射抹掉。Dark field 照明以浅角度从表面掠过，让划痕和凹陷在暗背景上浮成亮线，正好和 ring 照明把它们抹平的倾向相反。

Structured light 和激光照明

Structured light 照明把已知图案（条纹、点、网格）投到零件上，让相机能从图案的畸变里重建表面形状。这是工厂里 3D 视觉的主力。Line laser 在激光三角测量系统里扮演同样的角色，以非常高的分辨率扫描高的或弯曲的零件。两种方案都需要把环境弄暗，通常作为 3D 系统的捆绑组件出货，而不是单独选购。

机器视觉系统是怎么部署的

传感器和光源之后的下一个判断，是检测实际跑在哪里。部署模型决定了 capex、占地，以及当产品组合发生变化时系统能被复用到什么程度。下面每一种选项都以集成商可以塞进机柜的可识别模块出现。

PC 基础的机器视觉

PC 基础的系统把一台或多台工业相机和一台跑 rule-based 或 AI 软件的专用工业 PC 结合起来。它给出最大的灵活度（更多相机、自定义逻辑、复杂流水线）和给 AI 模型最大的运算余量，但占机柜空间，调试也更费工时。典型的一站全包 capex 在 25,000 到 80,000 欧元。

Smart camera

Smart camera 把传感器、处理器和 I/O 集成到单个外壳里。Cognex In-Sight、Keyence CV-X、Basler ace 是以单模块出货的 smart camera 代表。它安装容易、比 PC 基础工位便宜，对于具有可预测 rule-based 逻辑的单相机检测是理想选择。缺点是计算资源有限，沉重的 AI 模型有时塞不进 smart camera，复杂的 multi-camera 方案因此被推回 PC 基础架构。

嵌入式 edge 和 fleet 化设备

最新的部署模型用小尺寸嵌入式 edge 设备（Jetson 级别的板子、智能手机、加固平板）在端侧跑 AI 推理，并连到后端做 fleet 管理和模型更新。这一类里 iPhone 集成了 12 兆像素的 global-shutter 传感器、把卷积模型实时跑起来的 A 系列 neural engine，以及 5 年硬件生命周期，所有这些都装在作业员已经会用的形态里。这就是 fleet 化检测在商业上可持续的关键。

最常见的机器视觉用途有哪些

5 类机器视觉用途占了离散制造装机量的大部分。外观和结构缺陷检出是代表性场景：划痕、凹陷、缺失、污染、缺特征。装配验证检查多工序总成下线时每颗螺丝、标签、组件是否在正确位置、正确朝向。Barcode 和 DPM（direct part marking）读取支撑包装、汽车、电子行业的可追溯性。计量按图纸公差测量关键尺寸，常常替代手动卡尺。机器人引导告诉机械臂零件的姿态，让它能去抓、放、对那些没有完全工装定位的零件。

另有两类用途收尾。第一类是最简单的有无检查：密封件在、盖子盖上、防拆封条完整。第二类是为高质量对位做的模板匹配，用于驱动点胶头、激光打标头，以及需要基准的 pick-and-place 设备。每一种用例的生死都取决于对 ground truth 的验证，所以一个 200 到 500 张已标注图像的试点，比 3 个月的厂商演示更有价值。

可复现性才是真正在解决质量问题的视觉系统和首次换型后就漏掉的视觉系统的分水岭。一个实用的现场测试是把 50 个已知合格件和 50 个已知不合格件连续在 3 个班次里送过系统。如果每个零件每次的判定都一样，就具备可复现性。如果一个班次过去后 50 个里有 2 个判定结果变了，问题不在镜头，而在光源或模型，在收紧公差之前还有事要做。

fixed-line 和 fleet-based 机器视觉有什么区别

第三个维度是最新的，大多数指南今天还在忽略它。传统上，每个检测工位都是 fixed-line。相机装在刚性支架上，配 ring light、密封罩，再走线到机柜里的控制器。安装 2 到 4 周。调试再加 2 周。工位不重新调试就动不了。

Fleet-based 检测是过去两年才走向实用的可移动替代方案，靠的是小尺寸传感器（今天的智能手机已经是大多数工厂能拿到的最高分辨率工业相机）和端侧 AI。Fleet-based 系统是一组便携检测设备，任何作业员都能拿起来放到产线前面，在产线本身的量产环境里、对产线本身的工艺，做抽样检测或 100% 检测。

这件事重要有三个原因。第一，因为是按检测任务付费，而不是按机柜里钉死的相机付费，添加一个新检测点是一个班次的决定，而不是一个 capex 项目。第二，只要 tact time 允许，同一套硬件可以在周一、周三、周五分别检测三条不同的产品线。第三，检测可以跟着产品走：在预包装工位里，在瓶颈末端的小车上，在质量实验室里做更深的抽样。同一支 fleet 覆盖很多用例，不必每换一个用例就买一只新镜头。

支架方案让这件事在真实工厂里变得实用。用磁吸夹具、三脚架或固定位置支架，同一台 iPhone 可以在 90 秒内装到一个工位，午饭后再被搬到另一个工位。我们的iPhone 装到生产线上的指南拆解了最常见的 3 种方式、各自的成本，以及各自在哪里会塌。

Enao 正是聚焦在这一类。作为出货 fleet-based 机器视觉解决方案的初创公司，我们的优势恰好落在 fixed-line 厂商正在按市场价格把自己排除出局的位置。一套 iPhone 加 80 欧元 ring light 的 fleet-based 方案，在那些数量或品种撑不起固定工位的检测任务子集上，会把 80,000 欧元的固定工位顶替掉。

哪种机器视觉架构适合哪种产线

3 个维度给出 8 种组合。实际上 5 种组合覆盖了离散制造里几乎全部检测问题。下面这个清单把架构映射到产线本身的应用需求。

大批量、单一产品产线、几何定义的缺陷、单面：rule-based、单相机、fixed-line。想想包装、标签印刷、密封件上的尺寸检查。Capex 25,000 到 50,000 欧元，如果漏检率超过 0.3%，2 年内回本。
中等批量、换型频繁、外观上波动的缺陷：AI-based、单相机、fleet-based。想想家具部件、机加工组件、漆面外壳。Capex 起步不到 5,000 欧元，按工位数线性扩展。
全角度检测的三维零件、缺陷目录稳定：AI-based、multi-camera、fixed-line。想想铝合金机加工外壳、有关键面的注塑零件。Capex 50,000 到 120,000 欧元，每件漏检成本超过 5 欧元时即可证明合理。
高速连续幅或卷材：rule-based、单相机 line scan、fixed-line。想想纸张、薄膜、玻璃、钣金。Capex 30,000 到 80,000 欧元，外观检查上常被 AI 替代或并用。
缺陷目录还未明朗的产线上的新检测任务：AI-based、单相机、fleet-based。想想刚被重新设计过的零件、新供应商、还没被定性的投诉聚类。Capex 起步不到 2,000 欧元，等缺陷目录稳定后再迁到 fixed-line。

最后一种模式恰好是大多数采购出错的地方。在还没人知道缺陷目录长什么样的产线上，去定一套 fixed-line 的 multi-camera rule-based 系统。6 个月后才发现自己抱着一台 90,000 欧元的系统，却只抓到真正要紧的 7 类缺陷里的 3 类。第一年从 fleet-based 起步，等缺陷目录稳定再迁到固定工位，往往能省下三分之二的全生命周期成本。

这种取舍的财务面我们写在制造业 AI 采购与预算备忘里，谈了 capex 对 opex 的算法，是一份会让新客户填进自己产线本身数字的模板。

哪些行业在拉动机器视觉需求

3 个行业占了机器视觉全球支出的大头。汽车工厂在每个焊接单元、喷涂房和总装工位上都跑视觉，对 body-in-white 板件和动力总成子系统设了很紧的公差。半导体 fab 在 wafer 检测、die bonding、封装打标的每一步都依赖视觉，在人工检验员撑不住的产线速度下要求亚微米的可复现性。航空航天靠更低批量更紧公差为生，每一道紧固件的力矩标记、每一道焊缝、每一片复合材料叠层都要有可追溯到 build record 的验证。

把这三个拿掉，机器视觉已经渗入食品饮料、制药、电子、包装、物流、回收，并在家具和时尚业增长。共同的线索是，缺陷在出货前被检出能让一台相机的成本回本数次的制造工艺。在数量更小或品种更频繁的地方，fleet-based 系统在 TCO 上常常击败固定工位。在大批量、产品稳定的地方，fixed-line 仍然胜出。

机器视觉系统怎么和 PLC 与 MES 集成

一台不能和产线其余部分对话的机器视觉系统，是一台非常昂贵的 polaroid。System integration 才是「会抓缺陷的工位」和「真正撼动 throughput、scrap、可追溯指标的工位」之间的分水岭。集成商真正赚钱的部分，就在把可工作的相机接到可工作的产线上。

在 PLC 那一侧，视觉系统在简单情况下通过数字 I/O 发布合格/不合格信号和故障信号，在数据更丰富时（缺陷类别、位置、图像 ID）通过 EtherNet/IP、Profinet、Modbus TCP。剔除气脉冲、打标启动、机器人夹爪、停线指令都住在 PLC 里，并在同一扫描周期里被视觉判定触发是常态。50 到 200 毫秒的延迟预算是标准。

在 MES 和质量这一侧，系统把每一次判定流式写入数据库，常常带上原图。这个数据流喂养缺陷原因的 Pareto 图、不合格品的批次谱系，以及质量经理真正看的 SPC 仪表盘。云连接的 fleet-based 系统在设计时就预设了网络，原生处理这件事。老的固定工位需要专用 SCADA 连接器或 historian，这是 3 年 TCO 里隐藏的成本之一。已经在跑 MES 主干的内部 IT 团队，把视觉数据流当作多一个网络端点而不是另立一条串行链路，能省下数周工时。

机器视觉系统的 ROI 是多少

驱动 payback 计算的有 3 个数：系统抓住的缺陷成本、它替换或加固的人工成本，以及全生命周期成本。在一条年产 200,000 件的产线上，漏检率 0.5%，每件缺陷 12 欧元（返工、给客户的 credit note、物流），那么在引入视觉系统之前你每年丢掉 12,000 欧元。如果它抓住其中 80% 的漏检，一套 25,000 欧元的 fleet-based 系统 2.6 年回本，一套 90,000 欧元的固定工位 9.4 年回本。

人工成本节省是第二个杠杆。一名总用人成本 50,000 欧元/年的全职检验员，是自动检测要去争夺的预算。如果系统覆盖那个人 60% 的工作，节省就是每年 30,000 欧元，仅这一项就能让大多数 fleet-based 部署在 12 个月内回本，并把那名检验员释放出来去优化更难的案例。

第三个杠杆在上游。如果在第 4 工位而不是产线末端抓住缺陷，你就省下了这两点之间每一道工序的加工成本。在 12 工序的总装线上，每件 3 到 5 欧元是常态，这部分要叠加在原始的缺陷成本上。忽略上游节省的 ROI 模型会把产线视觉的价值低估 30% 到 50%。

怎么搭一个不会后悔的机器视觉系统短名单

3 个问题能把大多数短名单砍掉一半。它们直接对应产线本身的应用需求，而不是厂商希望卖你的功能清单。

第一，系统在生命周期的第一年要处理多少个产品变体。如果答案超过 3 个，无论单价多低，rule-based 几乎一定是错的选择。

第二，缺陷目录变化时会发生什么。问厂商：上线后增加一个新缺陷类别的精确流程和耗时是怎样的。好的回答按小时计、由产线作业员就能完成。差的回答按周计、需要现场出差。同一个问题适用于模型再训练、system design 变更，以及任何需要厂商工程师在背后亲自动手的调整。

第三，3 年总持有成本是多少，而不是标价。一套标价 40,000 欧元的 fixed-line rule-based 系统，加上集成、按产品变更的重新编程、维护合同，3 年下来 120,000 欧元是常态。一套每设备每月 500 欧元的 AI fleet-based 系统，3 年下来 18,000 欧元，并且更新已包含。

想更深地挖采购标准的话，请看外观检测软件采购指南，里面汇总了 10 个客户事后回想「签字前要是问过就好了」的功能问题。

怎么开始上机器视觉系统

如果你正在评估机器视觉系统，最快了解什么适合产线本身的方法，是针对单个检测任务搭一个 2 周试点。挑出投诉最多的那类缺陷，收集 200 张合格件参考图像，看看 AI 系统在没人告诉它要找什么的情况下，能不能抓住不合格件。

在 iPhone 上的 fleet-based 试点，硬件不到 1,000 欧元就能跑起来：翻新 iPhone、灯、线缆、支架。一套经典 fixed-line 系统光走到方案书阶段就要花 60,000 欧元。试验比 RFP 便宜，最新一代手机产生的高质量图像，足以在采购周期开始前先验证检测问题是不是可解。

想看针对这一类的 AI-based 厂商的精选短名单，请看2026 年最佳 AI 机器视觉系统对比。它把 8 家厂商按集成深度、time-to-first-inspection 和总持有成本打分。

常见问题

机器视觉系统在产线上有多准

对定义清楚的缺陷，AI 系统的第一天准确率在 80% 到 90% 之间，做简单二元判断的 rule-based 系统在 90% 到 99% 之间。经过量产数据的反馈闭环之后，AI 准确率上升到 95% 到 99%；rule-based 停在出发点，一旦产品发生波动就崩溃。你实际拿到的数字取决于光源条件、训练数据的体量和质量，以及缺陷尺寸相对于传感器像素的比例。

机器视觉系统装一套要多久

传统 fixed-line 系统从下单到第一次检测要 4 到 8 周。硬件出货和安装 2 到 4 周，再加 2 周做调试和规则编程。AI fleet-based 系统几天就能跑起来：拆一台 iPhone、上支架、用 200 张参考图像训一个模型、开始检测。代价是 fixed-line 系统在跑起来后能撑住更高的 throughput，而 fleet-based 系统更容易在产品组合变化时被重新部署。

机器视觉系统能处理多个产品变体吗

AI-based 系统对变体处理得好。每个变体收集几百张新参考图像，模型几小时内就能适配。Rule-based 系统应付变体很吃力，因为每加一个新产品通常要集成商出差一次再加上一轮新的编程。如果一条产线一年要走 3 个以上变体，下单前请把这种差别折算进总持有成本。

2026 年机器视觉系统多少钱

Fixed-line 系统每个检测工位 20,000 到 80,000 欧元，加 5,000 到 15,000 欧元的集成商费用以及年度维护合同。在 iPhone 上的 AI fleet-based 系统硬件不到 1,000 欧元（翻新 iPhone、灯、支架、线缆），加每设备每月 300 到 600 欧元的软件订阅。按 3 年看，你选的架构对总成本的影响远大于品牌或功能清单。

Smart camera 还是 PC 基础，哪种部署模型更好

Smart camera 在逻辑可预测、空间受限的产线上的单相机简单检测里胜出。PC 基础系统在需要多相机、复杂流水线、沉重 AI 模型，或者需要和自定义代码紧密集成时胜出。经验法则：如果检测要跑超过 3 条规则，或要跑塞不进 smart camera 的 deep learning 模型，PC 基础路线即便第一天看上去更贵，3 年里也会更便宜。

Line scan 还是 area scan，相机怎么选

Area scan 覆盖工厂里离散件检测的几乎全部（瓶子、瓦楞纸板、机加工组件、电子）。Line scan 是连续幅检测（纸张、薄膜、玻璃、钣金）和沿前进方向获取非常高分辨率的正确答案。如果零件停下、被拍、再走，area scan 是答案。如果材料连续在动、并且每一毫米都需要高分辨率，line scan 是答案。

机器视觉系统集成通常要多久

系统集成时间取决于架构。一套 PC 基础的 fixed-line 工位通常需要 2 到 4 周做 system design，再加 2 周走线和 PLC 集成，再加 2 到 4 周对 golden sample 做验证才能让产线负责人签字。Fleet-based 部署把这一切压缩到几天，因为设备、模型、网络端点是预集成出货的。已经会说 EtherNet/IP 和 OPC UA 的内部工程团队，在任一路径下都还能再省 1 周。

核心要点

机器视觉系统由 4 个层（相机、光源、软件、触发器）构成，把产品图像在通常 1 秒以内转换为实时合格/不合格判定。
3 个架构维度引导大多数判断：rule-based vs AI、单相机 vs multi-camera、fixed-line vs fleet-based。
传感器类型、光源方案、部署模型（PC 基础、smart camera、嵌入式 edge）共同决定 capex、占地，以及当产品组合变化时系统能被复用的程度。
AI-based 系统不必重新编程就能处理产品变体和变化中的缺陷目录，对每年走 3 个以上变体的产线尤其重要。
在 iPhone 上的 fleet-based 检测以全生命周期成本的一小部分，替代 80,000 欧元的固定工位完成表面检查、装配验证和有无判定。
3 年总持有成本作为判断指标通常胜过标价：一套标价 40,000 欧元的 fixed-line 系统 3 年下来 120,000 欧元是常态。

Explore with AI

Discuss this article with your favorite AI assistant

Ask ChatGPT Ask Claude Ask Gemini

作者

Korbinian Kuusisto

CEO & Founder, Enao Vision