技術簡介
本研究之技術現況聚焦於邊緣端部署的工業製程行為識別與異常偵測系統,核心採用視覺Transformer(ViT/DINOv2)作為特徵編碼器,結合關鍵圖幀(Keyframe)匹配與相似度計算,將連續影像序列轉換為具時序意義的動作狀態。系統以有限狀態機(FSM)進行行為流程建模,並透過分歧點取樣法自動推導判斷閾值,有效區分正常與異常循環。為因應實際場域需求,本技術進一步導入ROI自適應校正機制,以降低環境變動對辨識穩定度之影響,並可於NVIDIA Jetson AGX Orin等邊緣平台即時執行,兼顧準確性與即時性。
Abstract
This work presents an edge-based industrial process behavior recognition and anomaly detection system. A visual Transformer (ViT/DINOv2) encodes image features, and keyframe similarity maps video streams to temporal action states. A finite state machine models process flow, with thresholds automatically derived via bifurcation point sampling to separate normal and abnormal cycles. Adaptive ROI correction improves robustness to environmental changes. The system runs in real time on NVIDIA Jetson AGX Orin, balancing accuracy and latency.
技術規格
1. 異常偵測F1-score 0.90。
2. Edge即時推論速度11.82 FPS(Jetson AGX Orin)。
Technical Specification
1. Anomaly Detection F1-score 0.90
2. Edge Real-Time Inference Speed 11.82 FPS(Jetson AGX Orin)
技術特色
本研究的技術突破在於提出一套可於邊緣裝置即時運行的關鍵圖幀式行為辨識架構,結合Vision Transformer相似度比對、分歧點取樣閾值決策與有限狀態機(FSM)行為建模,在不依賴大型LLM的情況下,仍能完成細粒度動作與流程級行為判斷。透過ROI自適應校正與TensorRT加速,系統成功在Jetson AGX Orin上達成高於10 FPS的即時效能,突破傳統工業異常檢測在即時性與部署成本上的限制。
應用範圍
醫療訓練、工業SOP、老年照護、動植物觀察等領域的行為評估
接受技術者具備基礎建議(設備)
光學取像、電腦視覺、影像處理、Python軟體、GPU
接受技術者具備基礎建議(專業)
具備多模態大模型知識、Python程式能力
聯絡資訊
聯絡人:謝靜婷 智慧視覺系統組
電話:+886-3-5917801 或 Email:manahsieh@itri.org.tw
客服專線:+886-800-45-8899
傳真:+886-3-5917531