392期2025年1/2月號
出版日期:2025/02/15

專欄 Opinion
結合人工智慧的機器人技術與產業發展
撰文/工研院執行副總暨副院長胡竹生
工研院執行副總暨副院長胡竹生。
半導體的突飛猛進及生成式AI技術的突破,讓沉寂一段時間的機器人發展,似乎突現一道亮光,高運算能力促使機器人的行動及感知能力大幅提升,不僅具有學習能力,動作也更流暢,將對全球產業與社會帶來重大影響,備受關注。
在硬體算力的倍增以及演算法精進的推波助瀾下,近年來人工智慧(AI)又成為全球科技發展的鎂光燈焦點,尤其是生成式AI。然而在各界積極投資布建算力的基礎建設下,這個科技對產業與社會將帶來什麼衝擊?也引發許多推測及論述。尤其是如此龐大的投資勢必需要產生具規模性的商業利益,或是對人類社會的進步有顯著的影響。對於目前生成式AI投資所產生的報酬率,近來已經有不少分析和評論。例如高盛(Goldman Sachs)在2024年6月份的全球總經研究報告註1就以「生成式AI:太多投資,太少回收?」為標題,預估接下來對生成式AI的投資將超過1兆美元,然而文中訪談麻省理工學院的經濟學教授阿傑姆奧盧(Daron Acemoğlu),就預測生成式AI在未來10年,對美國的生產力僅會提升0.53%至0.66%,反映到美國GDP成長也僅是0.99%。
AI算力猛進 提升機器人感知行動力
臺灣在半導體以及電子產品製造的強大能力,無疑是這波設備投資中的受惠者,然而我們必須對其投資報酬偏低的預估有所警覺,同時對其可能的應用先期布局。人工智慧專家簡立峰博士在先前的文章中註2,在避免生成式AI泡沫化的隱憂下,將雲端龐大的算力導引到邊緣運算(Edge Computing)應用,將可能是這個科技落地的方向,這其中一個重要的項目就是機器人。
為什麼機器人在這波AI的發展中這麼被重視,其原因可以追溯到1980至90年代的莫拉維克悖論(Moravec,s paradox)觀念,當時很著名的人工智慧及機器人學者如美國卡內基美濃大學的莫拉維克(Hans Moravec)教授,麻省理工學院的布魯克斯教授(Rodney Brooks)及閔斯基教授(Marvin Minsky),一致感覺到電腦可以解決人類認為很困難的問題,如數學或物理的計算,但是卻無法解決人類認為很容易的能力,如感知環境到採取行動。其實倒也不是電腦無法執行感知行動的功能,而是要達到人類這些能力所需要花費的算力,記憶容量及耗能,以當時的科技是無法達成的。
時至今日,半導體的突飛猛進及生成式AI技術的突破,似乎可以解決莫拉維克悖論所揭示的困境。而這種高層次的難題被解決,將對人類社會造成重大影響,也引發各界對於其應用與商機的想像。
機器人自主化 可修改目標適應環境
這一道曙光已經引發了新一波的投資,例如在2024年2月完成6.75億美金B輪融資的新創公司Figure AI,估值已經高達26億美金。包含特斯拉的Optimus以及波士頓動力,全世界至少有三十幾個新創團隊在開發結合大語言模型(LLM)與生成式AI技術的機器人產品。不論是哪一種形式的機器人,現今的重點都是強調自主化(Autonomy)。自主化與自動化(Automation)不同,自動化通常指的是機器人照著一套事先規劃好的行動方案(或稱劇本)去執行,而自主化則是機器人會根據目標去產生行動方案,而且在執行期間會去修改方案甚至修改目標去適應環境的變化。
舉個簡單的例子:「把保溫杯裝滿熱水」這個目標,牽涉一系列的動作如找到保溫杯,找到熱水來源,然後打開蓋子、倒水等等,如果這其中所有的環節都已經安排好,包含各物件的位置,如何打開蓋子,與如何倒水的動作細節等,然後機器人照此執行,這就是自動化,即使這安排與實際狀況有差異,如杯子擺放姿態不同,只要在機器人的感測器(如視覺)可以偵測的範圍,都可以透過修正來執行。而所謂的自動化,就是機器人對這賦予的行動方案,可以一直重複執行而無需人為介入。從這個例子,讀者一定會感到疑惑,「把保溫杯裝滿熱水」付諸行動,對人類是再容易不過的,而且幾乎是不需要用腦思考,尤有甚者,即使保溫杯的蓋子有不同的扣合方式,人類都可以很快的就觀察了解而適應,為什麼對計算能力超強的電腦而言是困難的?這就是莫拉維克悖論所持的觀點,也是長久以來困擾著機器人研究界的重大議題。想像我們每天的生活和工作(包含工廠產品製造),隨處都是這種從目標到行動的行為,如果每件事都要去替機器人規劃,其用途就非常侷限,無怪乎目前大部分的機器人,都還是在工廠執行事前規劃好且重複性的工作。
這個困擾在大語言模型的生成式AI技術突破後,似乎看到了解決的可能性。如果去ChatGPT問:「假設你是機器人,你怎麼把保溫杯裝滿熱水?」所得到的回答會讓人感到很神奇,它會很準確地列出所有的步驟:
1.定位保溫杯:使用視覺或定位系統確定保溫杯的位置,確保杯子是空的並且放在穩定的表面上。
2.檢查水源:確保有足夠的熱水供應,比如熱水壺或熱水機。
3.啟動熱水供應系統:如果需要加熱水,啟動熱水機或熱水壺,將水加熱到合適的溫度。
4.取水容器:抓取或操作熱水壺的手柄,確保穩固握住。
5.傾倒熱水:將熱水壺的嘴對準保溫杯的開口,緩慢傾倒,確保水流穩定且不溢出。
6.監控水位:使用傳感器或視覺系統監控保溫杯的水位,確保不超過杯子的容量。
7.停止倒水:當保溫杯裝滿時,停止傾倒熱水,將熱水壺恢復到原位。
8.確保安全:檢查是否有任何水溢出或滴落,清理可能存在的水漬,確保環境乾燥且安全。
對機器人工程師而言,這些步驟距離機器人可執行的行動命令似乎相距不遠了。而且對於許許多多封閉式目標(Closed-end Target),也就是目標有清楚且可以被檢驗的產出,大語言模型都可以給出明確的執行步驟。可是仔細解析,這些文字描述的步驟到機器人的行動,仍然存在著許多問題需要解決,其中最關鍵的就是機器人的行為能力(Behavior)。
「行為」所定義的範圍很廣,這裡的行為指的是機器人面對其所處的環境,要達到某個目的時所需要執行的行動。例如上述步驟4,機器人如何確認熱水壺的種類並決定要怎麼穩固的抓取?怎麼確定是穩固的?又如步驟5,機器人如何控制其手部動作,使熱水以穩定且適當的流速倒入杯中?輝達的黃仁勳執行長在2024年Wired雜誌專訪時,樂觀看待人型機器人發展時下的註解(原文翻譯)註3。
「如果你可以生成文本,如果你可以生成圖像,你也可以生成動作嗎?答案可能是肯定的。然後,如果你可以產生動作,你就可以理解意圖並產生通用版本的關節動作。因此,人形機器人技術應該指日可待。」
這裡的動作,就是上述機器人的行為。基於大語言模型的成功,人類是否可以用同樣的手法建構大行為模型(Large Behavior Model;LBM),就是生成式AI的下一個挑戰。
大行為模型 算力需求龐大
如同LLM一樣,LBM需要大量且標記好的行為資料(包含與環境互動的紀錄),最直覺的方法就是示範學習(Learning by Demonstration)。史丹佛大學的團隊在GitHub上就展示了這個方法註4,研究人員穿戴與機器人結構相同的教導器,遙控機器人執行各種動作,而機器人將此動作與攝影機影像同時錄製下來,就構成了可供訓練的資料,也就是訓練類神經網路,由影像資訊(環境感知)去產生運動命令,完成特定行為。乍看之下似乎沒什麼困難,但是訓練的目的不是要機器人複製動作,而是要認知這個一系列動作的意義,進而可以對類似的環境與工作生成相對應的動作。這種類似舉一反三的能力建構,就是示範學習要去研發的重點,電腦必須從錄製的感測與動作資訊,以及其結果進行認知的訓練。
認知的部分目前是借助快速發展的視覺語言模型(Vision Language Model;VLM)。VLM是從同步圖像和文字輸入中學習的多模態生成式模型,然後產生具各種意義的文字輸出。大型VLM的能力包括對影像內容的討論(看圖說故事)、透過文字指令進行影像辨識、視覺問答與文件理解等等。一些VLM還可以捕捉影像中的空間屬性,例如定位不同的物體,以及其相對或絕對位置的資訊。
換句話說,VLM可以提供機器人透過攝影機,對環境、物體以及空間關係的認知。回到上述示範學習錄製的資料,就可以透過VLM產生文字描述,然後再建構一個類神經網路模型去學習此文字描述與機器人的動作的關係。採取這個策略最積極的就是Google RT-2計畫,Google稱此為視覺語言行動(Vision Language Action;VLA)。以這個技術策略去達到通用化是許多團隊競逐的目標,包含VLM本身的認知能力,產生的文字資訊是否足以對應行動的產生,如何泛用到不同的機器人結構等等。
更重要的是,需要經過機器人實際操作的過程回授,來微調這個模型。因為機器人的動作是連續的,而且需要很高的精準度才能達到動作目標,所以VLM等模型要在回授過程中不斷計算產生即時反應,因此算力的需求很龐大。綜合上述,以目前晶片與電腦系統的速度和成本,短期內每台機器人擁有獨立運算的泛用化LBM幾乎不可能,這也產生怎麼結合雲端與邊緣運算的技術想像空間。
人型機器人成為未來新星
如果每個行為都要實體示範學習,所需要的時間成本及資源太過龐大,因此必須要找到方法使機器人可以基於既有的示範教導,自我學習去擴張其能力。這個自我學習的環境基本上會採用數位孿生(Digital Twin)的技術,也就是用電腦模擬真實環境(包含機器人),例如NVIDIA的Isaac Sim。因為是在虛擬空間,所以可以有不同的策略去建構行為模型,例如可以使用強化學習方法,在虛擬空間嘗試錯誤去收斂。這當然會省去大量示範學習所需的資源,但是要建構不同目的的擬真環境,仍然是很龐大的工作以及算力的需求。值得一提的是,行為模型與機器人的硬體結構有密切關係,所以泛用化的模型還需要考慮適用的機器人範圍,或是有方法去轉換到不同的機器人結構。這個方面也是目前研發的重點。
機器人產業應用市場策略
目前去發展機器人行為能力於產業應用,分為垂直市場及水平市場2個策略。垂直市場就是針對特定應用範圍或場域,建構1個小型的行為模型,這就是如Figure AI等機器人新創公司的訴求,以製造、物流、倉儲以及零售的應用為主要標的。值得注意的是這些領域已經運用大量的機器人,且過去十幾年也導入人機協作來解決機器人自主性不足的問題。因此新型態機器人的價值主張如何吸引使用者採用,需要密切觀察。針對水平市場的策略則是如前述,主要在研發機器人的自我學習技術,能夠泛用到各種場域的行為能力建構。在機器人學術領域,這能力是以機器人是否能完成長時任務(Long Horizon Tasks;LHT)來定義:在具延續性與擴張性的行動及環境互動中,所需要維持的情境,關聯性與連貫性,以及目標導向的行為。
不少專家認為這與建構通用人工智慧(Artificial General Intelligence)息息相關,因為需要機器人具備自我教導與自我學習的能力。簡單來說,這個基礎模型(Foundation Model)需要能持續的探索、萃取、記憶以及推論機器人感測器所獲得的資訊與特徵。最明顯的例子就是人類對環境的熟悉能力,包含在該環境內做某些事該去哪些地方、拿那些物件等等。所以有人認為行為能力就是機器人具備空間智慧(Spatial Intelligence)。即使水平市場策略看來困難重重,仍然吸引了大量投資,例如前卡內基美隆大學教授Deepak Pathak和Abhinav Gupta在2022年成立的新創公司Skild,目前估值已達15億美元,以及在2024年4月由史丹佛大學李飛飛教授成立的World Labs,首輪獲得1億美元的注資,都在朝這個目標努力。
接續前文所述,機器人的行為能力與其結構及機電系統密切相關,這在生物界已經獲得很多印證,例如螞蟻在微小的體積與力量下,發展出的群體智慧行為來適應大自然的環境等。而人類智慧累積下建立的社會,與人的肢體結構與能力息息相關,包含建築、工具,以及各種人機介面等。因此這一波機器人的發展,許多均以擬人化的人型機器人為出發點。雖然也有不少人對於發展人型機器人持有不同觀點,但是從極大化其應用範圍的商業產品設計策略,不得不承認人型就長遠發展來說是最佳的選擇。
但是如果要完全複製人類運動的自由度,所需要的成本非常高且設計難度很大,所以基本上要從其應用的目的來定義其規格與數量。目前研發上的發展大致上分2個方向,第一個方向是技術能力展示,例如設計機器人可以做出一般人不易達到的動作或是極限運動,美國波士頓動力(Boston Dynamics)的機器人就是一例,除了軍事目的或是要在惡劣環境下生存外,比較很難想像在一般用途下的成本效益。第二個方向就是從應用出發來設計,例如工廠或物流倉庫的揀貨及搬運等。
前述的垂直市場方向是值得我們關注的,但是如果用人的能力來想像這類機器人,有些可能言之過早,例如從摺衣服或是洗碗等展示就想像家事服務的市場等。因為家庭環境及生活的變異很大,各種工作瑣碎複雜,目前尚且無法清楚定義其工程規格,遑論前述的人工智慧要發展到何種地步才能支持這個產品。如果限縮在製造等應用,其主要的訴求就是解決缺工問題,因為全球勞動力短缺已經是普遍現象。對於大型製造或是物流等企業,這是很有誘因的投資。所以即使特斯拉的Optimus機器人訴求家用,首先還是在2024年6月宣布有2台機器人導入其電動車生產工廠。
然而人型機器人導入在極度講求成本效率的製造業,必須能將全部或是部分流程完全無人化,否則也只是現有自動化設備以及服務供應商的邊際效益提升,影響有限。所以合理的推論是機器人能夠操作既有的生產設備以及使用各種工具去完成工作。例如工廠內的搬運自動化,使機器人可以駕駛普通的搬運車,相較於把搬運車改裝為自主駕駛,前者更具吸引力,因為機器人還可以做其他工作。同時也只有在限制範圍內先證明人型機器人可實際應用,才能進展到下一步的泛用化。
如果機器人執行的工作及環境是有範圍限制的,一個基本的問題是人型是否這麼重要?還是選擇性仿製部分人類的運動自由度與感測器?首先人體的運動自由度是冗餘設計,也就是說人體可以有多餘的自由度去完成大部分動作。除了機構的冗餘,控制人體運動的肌肉以及關節也是冗餘的,也就是某些關節的運動是可以由不同的肌肉收縮組合去產生。更令人驚嘆的是,控制肌肉的神經也是冗餘的。這種非常高冗餘度的系統,使得人類從大腦決策到實際動作,中間幾乎有無限多的路徑,人類得以在學習過程中去優化其控制路徑,產生平順,細膩甚至優雅的肢體動作,以目前機器人技術,這是無法去模仿的。
人型機器人需高度軟硬整合
回到本文的主題,該選擇那些自由度以及其規格,才能滿足應用需求同時兼顧成本效益。一般而言離不開移動(Mobility)以及操控(Manipulation)2項技術。移動上大致是輪式以及足式2種型態,雙足機器人是目前許多新創公司的訴求,相較於輪式,雙足的移動的敏捷性高(例如在狹窄且有障礙空間),尤其是可以適應人類的環境,如階梯等。但是其成本高且穩定性低,在平坦的硬地上,輪式在移動單位重量的能耗較低,承載能力較高且移動速度快。所以在有限範圍可控的場域,其實輪式機器人是比較有優勢的。然而不可諱言的,如果前述大行為模型可以囊括各種空間行動與工具操作的能力(例如操作堆高機等),雙足機器人的應用範圍是更廣的。
在操控上的技術追求的是有如人手一般的靈巧性(Dexterity),若不含腕關節,人類的手掌加手指有21個自由度,再者,人手的靈巧性仰賴密布在手掌與手指的觸覺神經感知。從技術的角度而言,這是一個數量龐大且互相耦合的感測驅動控制迴路(Sensory Control Feedback Loop)。以往工業機器人的夾爪是以抓取為目的,因此頂多設計到3根指頭,大部分用2根即可。再者,這些手爪都是剛硬的,無法對物體產生包覆性夾持,也很難在手部改變物體的姿態。對於無法穩定夾持的工件,可以設計週邊機構、吸盤,或是磁鐵來輔助。
也就是說,如果人型機器人的手仍然是如以往的簡單設計,沒有靈巧性,其實人型設計沒有太多市場競爭力。過去學術界以及部分產業界已經有許多仿生的手爪機構與驅動設計,包含運用軟性材料,但是在觸覺感測方面仍然不足。人類皮膚觸覺包含壓力、溫度、震動,以及剪力(感知所抓取的物體有朝某方向移動的傾向)。目前在單點上整合這些感測器(如指尖)已經不是問題,但是要布滿整個手掌仍然不容易。因此在較低的關節自由度以及少量的觸覺感知器下,極大化其靈巧性方能夠擴大應用範圍。由前述LBM在建立過程需要與機器人的硬體結構配合,雖然大語言模型(LLM)已經證明了通用於各國語言的建構方法,但是仍需要不同語言的大量語料收集。因此人型機器人的智慧性在短期內一定是高度的軟硬整合,是否能夠發展出一個與硬體無關的基礎行為模型,目前看來仍是個未知數。
機器人產業的新挑戰
人工智慧的浪潮席捲全球,各國政府及企業均積極又謹慎地面對其對社會與產業帶來的衝擊,賦予人工智慧的人型機器人是這波發展中相當被重視的焦點。大語言模型(LLM)賦予機器人自然語言的理解能力,從而對目標解析與工作規劃等有一定程度的自主性。然而到付諸行動,機器人的行為能力必須面對各種環境變異,這就產生了大行為模型(LBM)的技術追求。LBM的建構相較於LLM在實務上困難許多,而且可能離不開高度的軟硬整合。因為完全複製人類複雜的關節,肌肉與感知等機制幾乎不可能,所有的人型機器人都是所謂的降階設計(Reduced Order Design),而且必須與應用結合,才能在未來幾年內有商業化的機會。
臺灣在半導體與資通訊產品的製造能力,已經在資料與AI伺服器上居於全球的關鍵地位,未來人型機器人顯然會增加這類伺服器的需求。然而人型機器人在驅動器、感測器、通訊介面,以及邊緣運算系統上,將可能有不小的產業規模。在零組件小型化(如驅動器的功率密度提升,感測器微小化等),節能、耐久性以及成本上,仍有不小的改進空間。這個新的機電產品市場,需要精密機械與資通訊技術的高度整合,臺灣宜在既有的基礎上,積極投資去建構在這個供應鏈中的影響力。尤其是在人型機器人的運動、平衡,以及手部靈巧性的控制上是關鍵技術,過往在學術與產業的研發上著墨甚少,應可積極規劃投入。
最後,我們不能忽視具備新一代人工智慧的人型機器人問世,其高度自主性與學習能力將可能徹底改變在製造與服務業上的競爭與勞動力版圖。所幸這看來是一個漸進的過程,各界仍需要密切注意其發展與技術突破,制定因應對策。
(本文原刊登於智慧自動化產業期刊,取得胡竹生副院長授權轉載。)
註 1:Goldman Sachs Research, “Gen AI: Too much spend, too little benefit ? ” Jun. 25,2024.
註 2:簡立峰,”專注兩大關鍵!小心台灣 AI 泡沫化”,遠見雜誌,2024 年 7 月 4 日。
註 3:”Nvidia Hardware Is Eating the World,” interview with Jansen Huang, Wired, Feb. 3, 2024.
註 4:Mobile ALOHA,Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation, https://mobile-aloha.github.io/
下載全文PDF