『您的瀏覽器不支援JavaScript功能,若網頁功能無法正常使用時,請開啟瀏覽器JavaScript狀態』

跳到主要內容區塊 跳到 Cookie 設定

工業技術研究院

:::

技術名稱: 基於多模態大模型的行為識別評估系統

技術簡介

本研究之技術現況聚焦於邊緣端部署的工業製程行為識別與異常偵測系統,核心採用視覺Transformer(ViT/DINOv2)作為特徵編碼器,結合關鍵圖幀(Keyframe)匹配與相似度計算,將連續影像序列轉換為具時序意義的動作狀態。系統以有限狀態機(FSM)進行行為流程建模,並透過分歧點取樣法自動推導判斷閾值,有效區分正常與異常循環。為因應實際場域需求,本技術進一步導入ROI自適應校正機制,以降低環境變動對辨識穩定度之影響,並可於NVIDIA Jetson AGX Orin等邊緣平台即時執行,兼顧準確性與即時性。

Abstract

This work presents an edge-based industrial process behavior recognition and anomaly detection system. A visual Transformer (ViT/DINOv2) encodes image features, and keyframe similarity maps video streams to temporal action states. A finite state machine models process flow, with thresholds automatically derived via bifurcation point sampling to separate normal and abnormal cycles. Adaptive ROI correction improves robustness to environmental changes. The system runs in real time on NVIDIA Jetson AGX Orin, balancing accuracy and latency.

技術規格

1. 異常偵測F1-score 0.90。 2. Edge即時推論速度11.82 FPS(Jetson AGX Orin)。

Technical Specification

1. Anomaly Detection F1-score 0.90 2. Edge Real-Time Inference Speed ​​11.82 FPS(Jetson AGX Orin)

技術特色

本研究的技術突破在於提出一套可於邊緣裝置即時運行的關鍵圖幀式行為辨識架構,結合Vision Transformer相似度比對、分歧點取樣閾值決策與有限狀態機(FSM)行為建模,在不依賴大型LLM的情況下,仍能完成細粒度動作與流程級行為判斷。透過ROI自適應校正與TensorRT加速,系統成功在Jetson AGX Orin上達成高於10 FPS的即時效能,突破傳統工業異常檢測在即時性與部署成本上的限制。

應用範圍

醫療訓練、工業SOP、老年照護、動植物觀察等領域的行為評估

接受技術者具備基礎建議(設備)

光學取像、電腦視覺、影像處理、Python軟體、GPU

接受技術者具備基礎建議(專業)

具備多模態大模型知識、Python程式能力

技術分類 智慧視覺系統技術

聯絡資訊

聯絡人:謝靜婷 智慧視覺系統組

電話:+886-3-5917801 或 Email:manahsieh@itri.org.tw

客服專線:+886-800-45-8899

傳真:+886-3-5917531

舊工業技術研究院圖示