對比

機器視覺系統 2026：主流架構完整指南

Korbinian KuusistoCEO & Founder, Enao Vision

April 1, 2026

機器視覺系統把產品反射的光即時轉換為合格/不合格判定。整個堆疊由 4 個層組成。相機擷取影像，光源讓瑕疵可見，軟體執行演算法分析影像並回傳判定，觸發器把判定送到 PLC。傳統 fixed-line 系統每個檢測工位 20,000 到 80,000 歐元，再加上系統整合商的工時和換型停機時間。決定這筆費用是否解決問題的不是品牌，而是架構選擇。

關於機器視覺系統的大多數指南，開頭都從 CCD 感測器的歷史或者 Cognex 的併購故事講起。這些我們跳過。如果你正在運作一條產線，存在僅靠人工無法兜住的品質問題，你需要理解的是 3 個判斷維度，以及每個維度在現場實際大概要花多少錢。其餘都是系統整合商會替你處理的細節。

機器視覺系統在工業自動化中處於什麼位置

今天的工廠運行在一張緊密的自動化系統閉環之上。指揮輸送帶的 PLC、執行 pick-and-place 的機械手臂、追蹤每個零件的 MES 軟體，以及作為整個堆疊眼睛的機器視覺系統。從工業自動化裡把視覺拿掉，瑕疵就要等到客戶告訴你才被看見。把它裝回去，那條已經在產線上搬動零件的同一套自動化，就能就地完成不良品剔除、重工和再平衡。視覺是把運動轉成判定的那一層。

機器人引導是最清楚的例子。6 軸機械手臂離開視覺系統就無法從料箱裡抓起隨機擺放的零件，因為必須有人告訴它零件的位置、旋轉姿態，以及是不是下一道工序所期望的那個變體。這就是機器人技術和機器視覺一直一起成長的原因。在 7 號工位負責瑕疵檢測的同一路影像串流，可以引導 8 號工位的組裝驗證，並向 9 號工位的機器人發出即時校正訊號。閉環越緊，從產線末端流出去的不良品就越少。

演算法這一層由兩類軟體堆疊主導。rule-based 函式庫把熟練操作員的直覺編碼成程式：邊緣偵測、blob 分析、樣板比對、尺寸量測校正。AI，特別是 deep learning 的卷積網路，從打過標籤的影像中學到同樣的模式，並把它泛化到規則未曾見過的變體上。今天大多數量產級的機器視覺解決方案兩者並用，結構化的檢查交給 rule-based，雜亂的外觀瑕疵交給 deep learning。

什麼算機器視覺系統

整個堆疊作為單一閉環運行。相機擷取影像，光源讓瑕疵可見，軟體執行演算法分析影像並回傳判定，觸發器和輸出把判定送到 PLC 或剔除機構。每一層都在補另一層的短板。便宜的光源會要求更貴的軟體。快的相機可以簡化觸發邏輯。系統的能力以最弱的那一層為上限。這就是為什麼大多數失敗的機器視覺專案，本質上是光源問題偽裝成了軟體問題。

比這更簡單的，比如雷射距離感測器或光電感測器，不是視覺系統而是有無感測器。比這更大的，比如帶機械手臂和剔除門的整套線上品質管制工位，本質上仍然是一套視覺系統，只是被更多硬體包裹起來。以 turnkey 方式銷售的廣義 vision solutions 也一樣。掀開外殼，裡面還是同樣的 4 層影像處理堆疊裝在不同的封裝裡，quality control 邏輯最終都要走同一條觸發層。

如果想深入到單個元件、相機、鏡頭、光源、軟體廠商，請看工業影像處理指南。它把堆疊每一層連同參考廠商和價位段一起拆開來講。

在繼續往下看之前，有一個數字值得記到腦子裡。一個經驗法則是，對你想要檢出的最小瑕疵尺寸，至少需要 20 到 30 個像素。一個填滿 12 百萬像素影格的零件上的 0.3 公釐刮痕，是臨界條件。同樣的刮痕落在一個填滿 2 百萬像素影格的零件上，就不可能。在軟體介入之前，感測器解析度、鏡頭選型和工作距離已經決定了這個上限。

機器視覺系統的每一層實際在做什麼

4 個層在不同產線上的重要性和成本並不均等。拋光金屬表面檢測的勝負在光源。高速包裝線的勝負在快門速度和觸發延遲。知道你這條線上是哪一層在做事，就知道錢該花在哪一層。同樣的邏輯適用於機櫃裡所有的子系統，從輸送電力的纜線到承載推論的模組。

相機與鏡頭

相機和鏡頭的組合定義了系統在物理上能看見什麼。感測器解析度、像素尺寸和鏡頭焦距共同決定視野和最小可檢細節。工業相機的跨度很寬，從 400 歐元的 1 百萬像素 global-shutter 感測器，到超過 8,000 歐元的 50 百萬像素科研級感測器。最近的智慧型手機相機，含計算合成在內位於 12 到 48 百萬像素，這讓最近幾代 iPhone 在可處理的檢測任務上，勝過大多數 2,000 歐元以下的工業相機。

影像擷取是其餘堆疊開始的起點。在典型的 fixed-line 配置裡，數位影像透過 GigE Vision、USB3 Vision 或 Camera Link 從感測器取出。有時還要走一塊專用的取像卡，在把像素資料交給主機之前完成緩衝和前處理。取像卡過去對 line scan 相機和高速相機是必備，今天在那些微秒級延遲才算數的計量流程裡仍然常見。基於 Ethernet 的影像擷取吃下了市場的下半段，因為 GigE Vision 取像卡可以和現成的 NIC 並排工作。在滿幀率下高於 25 百萬像素的高解析度感測器上，專用取像卡仍然有它的位置。

光源

光源是最常出問題的一層，因為它也是採購在選型階段最容易跳過的一層。工廠裡的環境光會隨班次、季節、天窗進光的角度而變化。固定式的機器視覺系統需要自己的遮蔽光源，這樣相機在 2 月星期天凌晨 3 點和 7 月星期三下午 1 點看到的畫面才能保持一致。光源的選型（ring、bar、backlight、dome、dark field、structured）由瑕疵決定，不是憑口味。穩定的照明條件，才是模型在跨班次仍然可重現的前提。

軟體

真正下判定的是軟體。Halcon、VisionPro、OpenCV 這類 rule-based 函式庫用經典演算法（邊緣偵測、blob 分析、幾何比對）做樣板比對、尺寸量測、強度閾值比較。AI 堆疊跑卷積神經網路，特別是有監督的分類器和偵測器，從幾百張參考影像裡學到什麼算「合格」。Deep learning 讓你可以跳過手工特徵工程，對那些經典演算法描述不出來的外觀瑕疵更快投產。軟體層還包含推論 runtime，跑在 PC、smart camera、嵌入式 edge 設備或智慧型手機上，決定了整個閉環的吞吐速度。

觸發器與輸出

觸發器和輸出是管路。光電感測器或編碼器告訴相機零件何時進入畫面。判定（pass、fail、帶原因的 fail）透過數位 I/O、EtherNet/IP 或 Profinet 回到 PLC，再去驅動剔除氣閥、機械手臂、打標工位或者一個簡單的計數器。延遲預算很緊。在每分鐘 300 件的產線上，從拍照到下判定再到通知訊號，只有 200 毫秒的餘量。

rule-based 與 AI-based 機器視覺如何比較

機器視覺裡最古老的分界，是 rule-based 系統和 AI-based 系統之間的分界。Cognex、Keyence 以及所有經典函式庫（Halcon、OpenCV、VisionPro）都從 rule-based 這一邊出發。系統被設定去尋找特定特徵：某個孔必須是 4.2 公釐直徑；logo 必須距左邊 12 公釐；某個表面必須是均勻灰階並且標準差低於閾值。演算法是確定性的、容易稽核的，所以計量和組裝驗證至今仍然依賴它。

rule-based 在產品一致、瑕疵有幾何定義、光源被遮蔽時表現非常好。一旦現實變得雜亂，它就崩潰。一批不一樣的原料、一個新的產品變體、產線上方天窗帶來的環境光波動，都足以讓誤剔除率一夜翻倍。

AI-based 系統把邏輯反過來。這種思路分兩步運轉。先訓練模型認識合格件的樣本，讓它把看上去不尋常的東西標出來。還沒人打過標籤，瑕疵候選就先浮上來了。然後給這些瑕疵打標籤，按類型分組，再訓練一個有監督的偵測模型去分類每一種類型。第二步讓這種思路在量產裡站得住，並對每個零件給出高精度且可執行的判定，而不只是一個簡單的合格/不合格訊號。我們在AI 外觀檢測的實用定義裡拆解了這幾種取捨，並寫了讓每條路線在機櫃裡活得下去的成本。

實際差別在於：當生產發生變化時會怎樣。rule-based 系統需要系統整合商重新編程，通常意味著一份變更指令和 3 到 6 週。AI-based 系統需要的是新的參考影像，產線作業員一個小時內就能拍齊，模型在不動機櫃的情況下就完成調整。在每年要走 3 個以上變體的工廠裡，這種差別會很快累積。

什麼時候機器視覺系統需要多台相機

第二個維度是需要多少個角度。單相機系統是從單面檢測的平面或圓柱形產品的預設選項。瓶身上的標籤。鈑金的表面瑕疵。瓦楞紙板上的印刷品質。1 台相機、1 個鏡頭、1 套光源、1 次判定。

Multi-camera 系統出現在瑕疵可能落在三維零件任何一個面上的場景。一個鋁合金加工外殼可能需要四周布 4 台相機，去抓住每一面的刮痕。一個同時含透明區域和不透明區域的射出零件，可能需要 2 台用不同光源角度依序觸發的相機。

Multi-camera 把硬體和軟體成本大致放大 2 到 4 倍。同步的複雜度也翻倍。如果相機 1 在時間戳 T 看到一個零件，相機 3 在 80 毫秒後才看到，軟體就必須把這兩幀縫到同一個零件 ID 上。經典系統靠 PLC 觸發的編碼器來做這件事；AI 系統靠每相機一份的推論加上一層共享的剔除邏輯來做。

經驗法則：先從單相機起步。只在瑕疵稽核顯示有 15% 以上的漏檢發生在單相機搆不到的面上時，才升級到 multi-camera。

工業相機使用什麼感測器

感測器類型是在你定下 rule-based 還是 AI、單相機還是 multi-camera 之後的第一個硬體決定。選哪一種取決於零件是否在動、是否需要深度資訊、瑕疵在普通光下是否可見。大多數工業相機仍然出貨 CCD 感測器，或者今天更常見的 CMOS 感測器，兩者之間的選擇是在像素均勻性、讀出速度和成本之間做平衡。

Area scan 相機 vs line scan 相機

Area scan 相機每次觸發擷取一整張 2D 影格，涵蓋了幾乎所有離散件檢測，包括瓶子、瓦楞紙板、加工零件、電子組件。Line scan 相機一次只擷取一行像素，依靠從感測器面前經過的零件，把影像逐行拼起來。Line scan 主導著連續幅檢測（紙張、薄膜、織物、玻璃）以及成捲的鈑金，因為它能在不必買一塊巨大面陣感測器的前提下，沿著前進方向得到非常高的解析度。Line scan 相機加取像卡再加 strobe bar light，能在每秒數公尺的速度下，以亞毫米細節檢測移動的幅材。

3D 視覺系統

如果瑕疵是幾何性的，比如缺失的螺絲、變形的表面、錯誤的高度，2D 影像往往不夠。3D 視覺系統透過立體 CCD（2 台相機）、structured light（投影機加相機）、雷射三角量測（雷射線加相機）或 time-of-flight 感測器來重建深度。它的成本是 2D 系統的 2 到 4 倍，所以大多數工廠只把它用在必需的任務上：機器人引導的 bin picking、銲道檢測、複雜零件的尺寸驗證。

高光譜與紅外線成像

也有一些瑕疵在普通 RGB 相機下看不見。塗層下的水分、食品裡的異物、透明層裡的剝離。Near-infrared、short-wave infrared 和高光譜相機能抓到人眼或消費級感測器看漏的波段。它貴（每台相機 15,000 到 80,000 歐元）也慢，所以在食品、製藥、農業、回收行業裡出現得比一般製造業更多。

工業視覺可以選用哪些光源方案

光源選擇恰恰是「第一天就能跑」和「拖一個 6 個月調參專案」之間的分水嶺。正確答案取決於表面、瑕疵類型，以及在產線本身光照條件下需要的對比度。

Ring light 與 bar light

Ring light 圍在鏡頭外圈，對平面或微彎表面提供主要為漫反射的均勻照明。Bar light 以受控角度布置在零件側面。它們是常規檢測的主力：有無判定、標籤讀取、OCR、金屬或塑膠表面的簡單刮痕。便宜（50 到 400 歐元），安裝簡單，對失誤寬容。

Backlight、dome、dark field

Backlight 放在零件後面，讓相機看到剪影。在不透明零件的尺寸檢查上，或者在那些把瑕疵藏在亮背景裡的透明產品上，沒有對手。Dome 光以漫射光把零件包起來，把拋光面（陽極氧化鋁、拋光塑膠、烤漆金屬）上的鏡面反射抹掉。Dark field 照明以淺角度從表面掠過，讓刮痕和凹陷在暗背景上浮成亮線，正好和 ring 照明把它們抹平的傾向相反。

Structured light 與雷射照明

Structured light 照明把已知圖案（條紋、點、網格）投到零件上，讓相機能從圖案的扭曲裡重建表面形狀。這是工廠裡 3D 視覺的主力。Line laser 在雷射三角量測系統裡扮演同樣的角色，以非常高的解析度掃描高的或彎曲的零件。兩種方案都需要把環境弄暗，通常作為 3D 系統的捆綁元件出貨，而不是單獨選購。

機器視覺系統是怎麼部署的

感測器和光源之後的下一個判斷，是檢測實際跑在哪裡。部署模型決定了 capex、占地，以及當產品組合發生變化時系統能被複用到什麼程度。下面每一種選項都以系統整合商可以塞進機櫃的可識別模組出現。

PC 基礎的機器視覺

PC 基礎的系統把一台或多台工業相機和一台跑 rule-based 或 AI 軟體的專用工業 PC 結合起來。它給出最大的彈性（更多相機、自訂邏輯、複雜流水線）和給 AI 模型最大的運算餘量，但占機櫃空間，調試也更費工時。典型的一站全包 capex 在 25,000 到 80,000 歐元。

Smart camera

Smart camera 把感測器、處理器和 I/O 整合到單一外殼裡。Cognex In-Sight、Keyence CV-X、Basler ace 是以單模組出貨的 smart camera 代表。它安裝容易、比 PC 基礎工位便宜，對於具有可預測 rule-based 邏輯的單相機檢測是理想選擇。缺點是運算資源有限，沉重的 AI 模型有時塞不進 smart camera，複雜的 multi-camera 方案因此被推回 PC 基礎架構。

嵌入式 edge 與 fleet 化裝置

最新的部署模型用小尺寸嵌入式 edge 裝置(Jetson 等級的板子、智慧型手機、強固型平板)在端側跑 AI 推論，並連到後端做 fleet 管理和模型更新。這一類裡 iPhone 整合了 12 百萬像素的 global-shutter 感測器、把卷積模型即時跑起來的 A 系列 neural engine，以及 5 年硬體生命週期，所有這些都裝在作業員已經會用的形態裡。這就是 fleet 化檢測在商業上可持續的關鍵。

最常見的機器視覺用途有哪些

5 類機器視覺用途占了離散製造裝機量的大部分。外觀和結構瑕疵檢出是代表性場景：刮痕、凹陷、缺失、汙染、缺特徵。組裝驗證檢查多工序總成下線時每顆螺絲、標籤、組件是否在正確位置、正確朝向。Barcode 和 DPM(direct part marking)讀取支撐包裝、汽車、電子行業的可追溯性。計量按圖面公差量測關鍵尺寸，常常取代手動卡尺。機器人引導告訴機械手臂零件的姿態，讓它能去抓、放、對那些沒有完全治具定位的零件。

另有兩類用途收尾。第一類是最簡單的有無檢查：密封件在、蓋子蓋上、防拆封條完整。第二類是為高品質對位做的樣板比對，用於驅動點膠頭、雷射打標頭，以及需要基準的 pick-and-place 設備。每一種用例的生死都取決於對 ground truth 的驗證，所以一個 200 到 500 張已標註影像的試點，比 3 個月的廠商展示更有價值。

可重現性才是真正在解決品質問題的視覺系統和首次換型後就漏掉的視覺系統的分水嶺。一個實用的現場測試是把 50 個已知合格件和 50 個已知不合格件連續在 3 個班次裡送過系統。如果每個零件每次的判定都一樣，就具備可重現性。如果一個班次過去後 50 個裡有 2 個判定結果變了，問題不在鏡頭，而在光源或模型，在收緊公差之前還有事要做。

fixed-line 與 fleet-based 機器視覺有什麼差別

第三個維度是最新的，大多數指南今天還在忽略它。傳統上，每個檢測工位都是 fixed-line。相機裝在剛性支架上，配 ring light、密封罩，再走線到機櫃裡的控制器。安裝 2 到 4 週。調試再加 2 週。工位不重新調試就動不了。

Fleet-based 檢測是過去兩年才走向實用的可移動替代方案，靠的是小尺寸感測器(今天的智慧型手機已經是大多數工廠能拿到的最高解析度工業相機)和端側 AI。Fleet-based 系統是一組可攜檢測裝置，任何作業員都能拿起來放到產線前面，在產線本身的量產環境裡、對產線本身的工藝，做抽樣檢測或 100% 檢測。

這件事重要有三個原因。第一，因為是按檢測任務付費，而不是按機櫃裡釘死的相機付費，新增一個檢測點是一個班次的決定，而不是一個 capex 專案。第二，只要 tact time 允許，同一套硬體可以在週一、週三、週五分別檢測三條不同的產品線。第三，檢測可以跟著產品走：在預包裝工位裡，在瓶頸末端的小車上，在品質實驗室裡做更深的抽樣。同一支 fleet 涵蓋很多用例，不必每換一個用例就買一個新鏡頭。

支架方案讓這件事在真實工廠裡變得實用。用磁吸夾具、三腳架或固定位置支架，同一台 iPhone 可以在 90 秒內裝到一個工位，午餐後再被搬到另一個工位。我們的iPhone 裝到生產線上的指南拆解了最常見的 3 種方式、各自的成本，以及各自在哪裡會塌。

Enao 正是聚焦在這一類。作為出貨 fleet-based 機器視覺解決方案的新創公司，我們的優勢恰好落在 fixed-line 廠商正在按市場價格把自己排除出局的位置。一套 iPhone 加 80 歐元 ring light 的 fleet-based 方案，在那些數量或品種撐不起固定工位的檢測任務子集上，會把 80,000 歐元的固定工位頂替掉。

哪種機器視覺架構適合哪種產線

3 個維度給出 8 種組合。實際上 5 種組合涵蓋了離散製造裡幾乎全部的檢測問題。下面這個清單把架構對應到產線本身的應用需求。

大批量、單一產品產線、幾何定義的瑕疵、單面：rule-based、單相機、fixed-line。想想包裝、標籤印刷、密封件上的尺寸檢查。Capex 25,000 到 50,000 歐元，如果漏檢率超過 0.3%，2 年內回本。
中等批量、換型頻繁、外觀上波動的瑕疵：AI-based、單相機、fleet-based。想想家具部件、加工組件、烤漆外殼。Capex 起步不到 5,000 歐元，按工位數線性擴展。
全角度檢測的三維零件、瑕疵清單穩定：AI-based、multi-camera、fixed-line。想想鋁合金加工外殼、有關鍵面的射出零件。Capex 50,000 到 120,000 歐元，每件漏檢成本超過 5 歐元時即可證明合理。
高速連續幅或捲材：rule-based、單相機 line scan、fixed-line。想想紙張、薄膜、玻璃、鈑金。Capex 30,000 到 80,000 歐元，外觀檢查上常被 AI 取代或並用。
瑕疵清單還未明朗的產線上的新檢測任務：AI-based、單相機、fleet-based。想想剛被重新設計過的零件、新供應商、還沒被定性的客訴聚類。Capex 起步不到 2,000 歐元，等瑕疵清單穩定後再遷到 fixed-line。

最後一種模式恰好是大多數採購出錯的地方。在還沒人知道瑕疵清單長什麼樣的產線上，去定一套 fixed-line 的 multi-camera rule-based 系統。6 個月後才發現自己抱著一台 90,000 歐元的系統，卻只抓到真正要緊的 7 類瑕疵裡的 3 類。第一年從 fleet-based 起步，等瑕疵清單穩定再遷到固定工位，往往能省下三分之二的全生命週期成本。

這種取捨的財務面我們寫在製造業 AI 採購與預算備忘裡，談了 capex 對 opex 的算法，是一份會讓新客戶填進自己產線本身數字的範本。

哪些行業在拉動機器視覺需求

3 個行業占了機器視覺全球支出的大頭。汽車工廠在每個焊接單元、噴塗房和總組工位上都跑視覺，對 body-in-white 板件和動力總成子系統設了很緊的公差。半導體 fab 在 wafer 檢測、die bonding、封裝打標的每一步都依賴視覺，在人工檢驗員撐不住的產線速度下要求亞微米的可重現性。航太靠更低批量更緊公差為生，每一道緊固件的扭力標記、每一道焊縫、每一片複合材料疊層都要有可追溯到 build record 的驗證。

把這三個拿掉，機器視覺已經滲入食品飲料、製藥、電子、包裝、物流、回收，並在家具和時尚業增長。共同的線索是，瑕疵在出貨前被檢出能讓一台相機的成本回本數次的製造工藝。在數量更小或品種更頻繁的地方，fleet-based 系統在 TCO 上常常擊敗固定工位。在大批量、產品穩定的地方，fixed-line 仍然勝出。

機器視覺系統如何與 PLC 和 MES 整合

一台不能和產線其餘部分對話的機器視覺系統，是一台非常昂貴的拍立得。System integration 才是「會抓瑕疵的工位」和「真正撼動 throughput、scrap、可追溯指標的工位」之間的分水嶺。系統整合商真正賺錢的部分，就在把可運作的相機接到可運作的產線上。

在 PLC 那一側，視覺系統在簡單情況下透過數位 I/O 發布合格/不合格訊號和故障訊號，在資料更豐富時（瑕疵類別、位置、影像 ID）透過 EtherNet/IP、Profinet、Modbus TCP。剔除氣脈衝、打標啟動、機器人夾爪、停線指令都住在 PLC 裡，並在同一掃描週期裡被視覺判定觸發是常態。50 到 200 毫秒的延遲預算是標準。

在 MES 和品質這一側，系統把每一次判定串流寫入資料庫，常常帶上原圖。這個資料流餵養瑕疵原因的 Pareto 圖、不合格品的批次譜系，以及品質經理真正看的 SPC 儀表板。雲連線的 fleet-based 系統在設計時就預設了網路，原生處理這件事。老的固定工位需要專用 SCADA 連接器或 historian，這是 3 年 TCO 裡隱藏的成本之一。已經在跑 MES 主幹的內部 IT 團隊，把視覺資料流當作多一個網路端點而不是另立一條串列鏈路，能省下數週工時。

機器視覺系統的 ROI 是多少

驅動 payback 計算的有 3 個數：系統抓住的瑕疵成本、它取代或加固的人工成本，以及全生命週期成本。在一條年產 200,000 件的產線上，漏檢率 0.5%，每件瑕疵 12 歐元（重工、給客戶的 credit note、物流），那麼在引入視覺系統之前你每年丟掉 12,000 歐元。如果它抓住其中 80% 的漏檢，一套 25,000 歐元的 fleet-based 系統 2.6 年回本，一套 90,000 歐元的固定工位 9.4 年回本。

人工成本節省是第二個槓桿。一名總用人成本 50,000 歐元/年的全職檢驗員，是自動檢測要去爭取的預算。如果系統涵蓋那個人 60% 的工作，節省就是每年 30,000 歐元，僅這一項就能讓大多數 fleet-based 部署在 12 個月內回本，並把那名檢驗員釋放出來去優化更難的案例。

第三個槓桿在上游。如果在第 4 工位而不是產線末端抓住瑕疵，你就省下了這兩點之間每一道工序的加工成本。在 12 工序的總組線上，每件 3 到 5 歐元是常態，這部分要疊加在原始的瑕疵成本上。忽略上游節省的 ROI 模型會把產線視覺的價值低估 30% 到 50%。

怎麼搭一個不會後悔的機器視覺系統短名單

3 個問題能把大多數短名單砍掉一半。它們直接對應產線本身的應用需求，而不是廠商希望賣你的功能清單。

第一，系統在生命週期的第一年要處理多少個產品變體。如果答案超過 3 個，無論單價多低，rule-based 幾乎一定是錯的選擇。

第二，瑕疵清單變化時會發生什麼。問廠商:上線後新增一個新瑕疵類別的精確流程和耗時是怎樣的。好的回答按小時計、由產線作業員就能完成。差的回答按週計、需要現場出差。同一個問題適用於模型再訓練、system design 變更，以及任何需要廠商工程師在背後親自動手的調整。

第三，3 年總持有成本是多少，而不是標價。一套標價 40,000 歐元的 fixed-line rule-based 系統，加上整合、按產品變更的重新編程、維護合約，3 年下來 120,000 歐元是常態。一套每設備每月 500 歐元的 AI fleet-based 系統，3 年下來 18,000 歐元，並且更新已包含。

想更深地挖採購標準的話，請看外觀檢測軟體採購指南，裡面彙總了 10 個客戶事後回想「簽字前要是問過就好了」的功能問題。

怎麼開始上機器視覺系統

如果你正在評估機器視覺系統，最快了解什麼適合產線本身的方法，是針對單個檢測任務搭一個 2 週試點。挑出客訴最多的那類瑕疵，蒐集 200 張合格件參考影像，看看 AI 系統在沒人告訴它要找什麼的情況下，能不能抓住不合格件。

在 iPhone 上的 fleet-based 試點，硬體不到 1,000 歐元就能跑起來:整新 iPhone、燈、纜線、支架。一套經典 fixed-line 系統光走到方案書階段就要花 60,000 歐元。試驗比 RFP 便宜，最新一代手機產生的高品質影像，足以在採購週期開始前先驗證檢測問題是不是可解。

想看針對這一類的 AI-based 廠商的精選短名單，請看2026 年最佳 AI 機器視覺系統對比。它把 8 家廠商按整合深度、time-to-first-inspection 和總持有成本打分。

常見問題

機器視覺系統在產線上有多準

對定義清楚的瑕疵，AI 系統的第一天準確率在 80% 到 90% 之間，做簡單二元判斷的 rule-based 系統在 90% 到 99% 之間。經過量產資料的回饋閉環之後，AI 準確率上升到 95% 到 99%；rule-based 停在出發點，一旦產品發生波動就崩潰。你實際拿到的數字取決於光源條件、訓練資料的體量和品質，以及瑕疵尺寸相對於感測器像素的比例。

機器視覺系統裝一套要多久

傳統 fixed-line 系統從下單到第一次檢測要 4 到 8 週。硬體出貨和安裝 2 到 4 週，再加 2 週做調試和規則編程。AI fleet-based 系統幾天就能跑起來:拿一台 iPhone、上支架、用 200 張參考影像訓一個模型、開始檢測。代價是 fixed-line 系統在跑起來後能撐住更高的 throughput，而 fleet-based 系統更容易在產品組合變化時被重新部署。

機器視覺系統能處理多個產品變體嗎

AI-based 系統對變體處理得好。每個變體蒐集幾百張新參考影像，模型幾小時內就能適配。Rule-based 系統應付變體很吃力，因為每加一個新產品通常要系統整合商出差一次再加上一輪新的編程。如果一條產線一年要走 3 個以上變體，下單前請把這種差別折算進總持有成本。

2026 年機器視覺系統多少錢

Fixed-line 系統每個檢測工位 20,000 到 80,000 歐元，加 5,000 到 15,000 歐元的系統整合商費用以及年度維護合約。在 iPhone 上的 AI fleet-based 系統硬體不到 1,000 歐元（整新 iPhone、燈、支架、纜線），加每設備每月 300 到 600 歐元的軟體訂閱。按 3 年看，你選的架構對總成本的影響遠大於品牌或功能清單。

Smart camera 還是 PC 基礎，哪種部署模型更好

Smart camera 在邏輯可預測、空間受限的產線上的單相機簡單檢測裡勝出。PC 基礎系統在需要多相機、複雜流水線、沉重 AI 模型，或者需要和自訂程式緊密整合時勝出。經驗法則:如果檢測要跑超過 3 條規則，或要跑塞不進 smart camera 的 deep learning 模型，PC 基礎路線即便第一天看上去更貴，3 年裡也會更便宜。

Line scan 還是 area scan，相機怎麼選

Area scan 涵蓋工廠裡離散件檢測的幾乎全部（瓶子、瓦楞紙板、加工組件、電子）。Line scan 是連續幅檢測（紙張、薄膜、玻璃、鈑金）和沿前進方向獲取非常高解析度的正確答案。如果零件停下、被拍、再走，area scan 是答案。如果材料連續在動、並且每一公釐都需要高解析度，line scan 是答案。

機器視覺系統整合通常要多久

系統整合時間取決於架構。一套 PC 基礎的 fixed-line 工位通常需要 2 到 4 週做 system design，再加 2 週走線和 PLC 整合，再加 2 到 4 週對 golden sample 做驗證才能讓產線負責人簽字。Fleet-based 部署把這一切壓縮到幾天，因為設備、模型、網路端點是預整合出貨的。已經會說 EtherNet/IP 和 OPC UA 的內部工程團隊，在任一路徑下都還能再省 1 週。

核心要點

機器視覺系統由 4 個層（相機、光源、軟體、觸發器）構成，把產品影像在通常 1 秒以內轉換為即時合格/不合格判定。
3 個架構維度引導大多數判斷:rule-based vs AI、單相機 vs multi-camera、fixed-line vs fleet-based。
感測器類型、光源方案、部署模型（PC 基礎、smart camera、嵌入式 edge）共同決定 capex、占地，以及當產品組合變化時系統能被複用的程度。
AI-based 系統不必重新編程就能處理產品變體和變化中的瑕疵清單，對每年走 3 個以上變體的產線尤其重要。
在 iPhone 上的 fleet-based 檢測以全生命週期成本的一小部分，取代 80,000 歐元的固定工位完成表面檢查、組裝驗證和有無判定。
3 年總持有成本作為判斷指標通常勝過標價:一套標價 40,000 歐元的 fixed-line 系統 3 年下來 120,000 歐元是常態。

Explore with AI

Discuss this article with your favorite AI assistant

Ask ChatGPT Ask Claude Ask Gemini

作者

Korbinian Kuusisto

CEO & Founder, Enao Vision