385期2024年06月號
出版日期:2024/06/15
觀念探索 Trend
許我一個夢想機器人
撰文/何綺拉(Melissa Heikkilä) 翻譯/連育德
安靜、死板、笨拙。
更大量的數據、更厲害的人工智慧,以及更便宜的硬體,讓實用型居家機器人的未來不再遙不可及。
艾文斯夫婦早已習慣這樣的房客。他們在加州洛沙托斯山丘(Los Altos Hills)的家中,過去十幾年來來去去了不少這樣的機器人。
2002年,正值40歲的亨利發生嚴重中風,四肢癱瘓,失去說話能力。他後來學會靠視線在字母板移動的方式溝通,但生活還是非常仰賴看護與太太簡恩。
2010年,亨利在CNN電視台看到坎普(Charlie Kemp)的訪談,頓時窺見不一樣的人生。坎普是喬治亞理工學院(Georgia Tech)的機器人學教授,正在介紹由柳樹車庫公司(Willow Garage)研發的PR2機器人。PR2是一台擁有雙臂、以輪子移動的大型機具,彷彿金屬外型的簡易管家。坎普展示著PR2的功能,提到他在醫療保健機器人的研究有機會造福人群。畫面中,他讓PR2把藥品遞給節目主持人。
「亨利當時突然轉頭對我說,真希望那個機器人是我身體的延伸。我回說有何不可?」簡恩說。
但說得容易,做起來難。在實驗室與工廠這類嚴格控制的環境中,機器人已有大幅進展,能夠投入工作,但要設計出適合居家環境的機器人,還是有難度。走進雜亂無章的真實世界,每戶家庭的家具與格局大不相同;小孩和寵物可能跑跑跳跳,擋住機器人去向;折衣服時,衣服的形狀、顏色、尺寸各有不同。這樣的環境與情況難以預期又變化多端,即使是最先進的機器人原型也難以招架。
拜人工智慧(AI)之賜,這樣的窘境似乎終於出現改善。數十年來,機器人專家借重功能導向軟體,或多或少聚焦在控制機器人的「身體」,例如手臂、腳、槓桿、輪子等,但新一代科學家與發明家認為,現在補上AI這個環節,機器人得以學習新技能與適應新環境,速度更勝以往。或許機器人終於能夠踏出工廠,走進住家。
不過,進展無法一蹴可幾。多年來用過好幾款機器人原型的艾凡斯夫婦深知這個道理。
PR2是他們試用的第一款機器人,讓亨利新增了一些全新的技能。好比說,PR2可以握住刮鬍刀,亨利只要把臉貼著刮鬍刀移動,就能刮鬍子,或是用類似的方式抓癢,這是他過去10年辦不到的事。但這款造價40萬美元的機器人重約450磅(200公斤),非常笨重。「它可能一不小心就打破牆壁。」簡恩說:「我不太喜歡。」
他們兩人最近在測試一款體積更小、名叫Stretch的機器人,它來自坎普所成立的新創企業「哈囉機器人」(Hello Robot)。第一代產品在疫情期間問世,價格合理許多,約1萬8千美元。
Stretch重約50磅,採取小型移動式基座,搭配一根裝有攝影機的桿子,還有一支可調整手臂,手臂夾手的末端有吸盤。Stretch可用遙控器操控,但亨利必須使用筆電控制,有個工具能夠追蹤他的頭部動作,進而移動游標,他再移動拇指和食指來點擊滑鼠。夫婦兩人去年夏天使用Stretch一個多月後,亨利表示它大幅提升了自己日常生活的獨立性。「它很實用,我可以想像自己每天都用到它。」他說。
透過筆電,他可以叫機器人幫他梳頭髮,握住水果串讓他吃。機器人甚至讓亨利和孫女的感情升溫。他們兩人以前很少互動。「孫女以前根本不會抱著他說再見。」簡恩說,但亨利和孫女可以用Stretch玩遊戲,像是接力賽、保齡球、磁吸釣魚等。
Stretch並非絕頂聰明,它只預先安裝了一些軟體(例如讓亨利能夠控制的網路介面)與其他功能(如AI導航),這樣的好處是,使用者可以插入自己的AI模型,拿來做實驗。雖然簡單,但它讓人瞥見機器人也能居家又實用的未來。機器人研究自1950年代興起以來,研究人員無不夢想著它能幫人類做家事,如折衣服、煮飯、打掃等。曾經很長一段時間,「機器人領域只是有夢最美」。坎普說。
但加州大學柏克萊分校機器人學教授高伯格(Ken Goldberg)指出,這個領域如今來到轉捩點。他說,先前再如何努力打造實用的居家機器人,還是無法達到主流文化的想像。如今情況已不可同日而語。除了有Stretch這樣的低成本硬體,數據的收集與分享也逐漸完備,再加上生成式AI的進展,機器人的能力與實用性更勝以往。「現在的機器人愈來愈厲害,快達到真正實用的境界。」高伯格說。
折衣服、煮蝦子、擦東西、從購物籃拿出雜貨,這些對上一代機器人都是不可能的任務,但目前的AI機器人正在學習如何完成這些動作。
缺漏的一環
機器人專家都熟知一個現象:人類做不到的,機器做得到;人類做得到的,機器做不到。這個所謂的莫拉維克悖論(Moravec's paradox),在1980年代由莫拉維克(Hans Moravec)首度提出,他當時是卡內基美隆大學(Carnegie Mellon University)機器人研究所(Robotics Institute)的機器人專家。機器人可以下棋或連續幾小時握住物體不動,但要它繫鞋帶、接球、交談就有難度了。
高伯格點出3個原因。首先,機器人無法精準控制與協調動作。其次,因為機器人須仰賴攝影機和感測器,因此對周遭世界的瞭解有限。第三,機器人缺乏應用物理的觀念。
「要它拿起鐵錘,除非它從重的那頭拿,否則鐵鎚可能會從夾手掉下來。光是看鐵鎚沒辦法知道會這樣,除非它知道鐵鎚的原理。」高伯格說。
除了這些基本考量外,其他許多技術層面也要水到渠成,例如馬達、攝影機、Wi-Fi等,硬體高得嚇人的價格也是一個癥結點。
從機械的角度來看,機器人能做繁複任務已有好一段時間。從1957年的一段影片可看到,兩隻大型機械手臂能夠靈巧夾住一根香菸,放進正在打字的女子嘴裡,還能幫她補擦口紅。不過,這個看似聰明又有空間意識的機器人,其實是背後有人操作。
「機器人學缺漏的一環是,如何讓軟體自動做到這些事?」卡內基美隆大學資工助理教授帕沙克(Deepak Pathak)說。
訓練機器人的研究人員為了解決這個問題,通常會鉅細靡遺規劃機器人的一舉一動。機器人大廠波士頓動力公司(Boston Dynamics)當初研發又會跳舞、又會跑酷的人形機器人Atlas時,正是採用這個方法。研究人員先以攝影機和電腦視覺技術辨識物體和場景,接著使用這份數據打造模型,能夠高度精準預估機器人做哪個動作會發生什麼事。透過這些模型,機器人專家編寫極為具體的行動清單,以此規劃機器人的動作。工程師接著在實驗室反覆測試這些動作,微調到完美狀態。
但這個訓練方式有局限,因為機器人經過嚴謹規劃,只能在特定環境中工作,一旦走出實驗室來到陌生據點,可能就會跌倒。
帕沙克說,跟電腦視覺這些技術領域相比,機器人學還在黑暗時代,但不久可能就會看到曙光,因為機器人技術正在經歷一陣大風吹。他說,受惠於AI熱潮,現在的研究焦點不再是動作的靈活性,而是透過神經網路的形式,打造「通用型機器人大腦」。正如人腦懂得適應、也能控制人體的不同層面一樣,神經網絡經過調整後,也能適用於不同的機器人與情境。相關研究的初期跡象顯示,後續發展值得期待。
當機器人遇見AI
有很長一段時間,機器人一直是吃力不討好的研究領域,進展緩慢。任職於卡內基美隆大學機器人研究所的帕沙克說:「這一行以前有句話說:一接觸機器人,博士就得多讀一年。」但他說現在不一樣,學生可以接觸到很多機器人,研究結果幾星期就看得到。
新一代機器人之所以不同,原因在於軟體。機器人專家不像以前需要辛苦規劃與訓練,而是採取深度學習和神經網路,打造新型機器人,能夠隨時隨地從環境學習,視情況調整行為。此外,硬體也推陳出新、價格變得更低,讓能利用現成零件與Stretch的機器人實驗更加方便。
以AI訓練機器人大致有兩種常見方式。一種是強化學習(Reinforcement Learning)技術,能讓系統從錯中學而不斷精進,帕沙克便是採這項技術,讓機器人在新環境調整動作。波士頓動力公司也開始以這項技術訓練名為小花(Spot)的機器狗。
2022年,帕沙克的團隊借重強化學習技術,研發出四足機器人,能夠爬上階梯,遊走於複雜地形。這批機器狗先在模擬軟體接受訓練,學習如何以一般方式移動,然後放到現實世界,以一個內建設影機與電腦視覺軟體引導。其他類似的機器人則依賴嚴格規範的內部地圖,超過範圍就無法行動。
帕沙克說,他的團隊從人類導航取經。人類以雙眼接收周遭環境的訊息,直覺地將一隻腳抬到另一隻腳前面的方式走路,通常不會低頭看正下方的地面,而是看著幾步以外要去的地方。帕沙克的團隊訓練機器人也採取類似的步行方式,先以攝影機看前方,然後記下前方有何物體,決定腳步怎麼踩。機器人沒有內建的內部地圖,而是即時認識周遭世界,視情況調整行為。當時接受本刊採訪的專家都說,這項技術是「機器人學習與自主性的一大突破」,有利研究人員研發出能夠部署在實驗室以外的足式機器人。
帕沙克的機器狗如今再次升級。研究團隊採用最新運算法,讓一款四足機器人從事極限跑酷。它同樣先以模擬軟體接受訓練,學習如何一般移動,但接著加上強化學習,讓它能夠邊動作邊學習新技能,例如長距離跳躍、用兩隻前腳走路、爬上比它高1倍的大型木箱。這些行為並沒有事先設定在軟體,而是機器人又是反覆摸索、又是接收前置攝影機的視覺資訊後學習的成果。「3年前我曾覺得這根本無法做到。」帕沙克說。
另一項常用的技術稱為「模仿學習」(Imitation Learning),亦即由模型模仿人類行動,例如人類遠端操控機器人,或使用虛擬實境頭戴裝置收集機器人數據,藉此學習如何執行任務。在豐田研究所(Toyota Research Institute)擔任機器人研究部門副總裁、亦是麻省理工學院教授的泰卓克(Russ Tedrake)說,這項技術在過去幾十年來來去去,但近來在操控型機器人領域又流行了起來。
藉由把這項技術搭配生成式AI,豐田研究所、哥倫比亞大學(Columbia University)與麻省理工學院(MIT)的研究人員已能迅速教會機器人完成許多新任務。他們認為找到方法延伸這項技術,讓生成式AI不只是創造文字、圖像和視訊,也能生成機器人的動作。
這項技術的概念是,先以手動控制機器人,示範打蛋攪拌、撿起碗盤等行為,再使用一種稱為「擴散策略」(Diffusion Policy)的技術,讓機器人使用這些數據學習技能。研究人員教了機器人200多種技能,像是剝蔬菜、倒液體等,並表示希望年底達到1千種技能。
其他人也善用生成式AI的優勢。機器人新創企業Covariant分拆自OpenAI目前已關閉的機器人研究部門,研發出一種多模態模型,稱為RFM-1,接受文字、圖像、影片、機器人指令或測量等形式的提示,生成式AI讓機器人了解指令,並產生與任務相關的圖像或影片。
泰卓克指出,豐田研究所希望這項技術日後催生出「大型行為模型」,類似大型語言模型。「很多人認為,行為複製(Behavior Cloning)能夠為機器人技術帶來ChatGPT等級的突破。」他說。
史丹佛大學有個團隊在年初進行類似示範,使用相對便宜、價格3萬2千美元的現成機器人,運用AI迅速學會如煮蝦、清潔污漬等較複雜的新技能。
這款名為「行動阿羅哈」(Mobile ALOHA;其意為低成本開源硬體遠端作業系統)的機器人,靠著僅僅20次的人類示範,加上其他動作如撕紙巾或撕膠帶的數據,就學會煮蝦。史丹佛大學研究人員發現,AI可以協助機器人獲得可轉移的技能,意思就是習得某項操作後,也有助於它在其他任務上的表現。
這一切都是在為居家機器人奠定基礎。人類的需求會隨時間變化,因此教會機器人做好各種任務很重要,幫助它適應人類生活。而擁有這種學習技能,也攸關機器人的商業化。第一代居家機器人的價格高昂,因此要有足夠的實用技能,一般消費者才會願意花錢購買。
在史丹佛大學擔任資工與電機工程助理教授,同時也是行動阿羅哈計畫顧問的芬恩(Chelsea Finn)指出,許多研究機器人的社群長年對上述方法高度存疑。她說,不到10年前,機器人相關會議上很少提及機器學習技術,圈內人對這些技術總是抱著嗤之以鼻的態度。「但自然語言處理技術如今大行其道,讓愈來愈多人了解到這項技術的厲害。」她說。
但新的問題來了:為了模仿新行為,AI模型需要有大量數據。
多多益善
聊天機器人可以用網路上的數十億筆數據來訓練,但機器人不同,需要有專門為機器人建立的數據。紐約大學(New York University)資工助理教授平托(Lerrel Pinto)指出,機器人需要人類實際示範如何打開洗衣機和冰箱、如何拿起餐盤、如何折衣服等。這些數據目前少之又少,靠人類來收集要花很多時間。
有些研究人員以人類執行某些任務的現有影片為素材,嘗試拿來訓練機器人,希望機器人複製動作,不必人類實際示範。
平托的實驗室也想出一個簡易又低成本的方式收集數據,讓機器人能做到期望中的動作。研究人員利用一根類似撿垃圾的抓取棒,上面綁上iPhone,請志願者拍攝做家事的過程,模仿機器人手臂末端的視野。平托的研究團隊這個代替Stretch機械手臂的裝置,再搭配DOBB-E開源系統,只用了20分鐘的iPhone資料,就讓Stretch機器人學會從杯子倒水和打開浴簾等任務。
但如果是更複雜的任務,機器人便需要更多數據和示範。
平托說,靠DOBB-E系統很難達到必要規模,因為這樣等於要說服全世界每個人買抓取器、收集資料、上傳至網路。
由Google DeepMind啟動的「開放X體現合作」(Open X-Embodiment Collaboration)計畫,旨在改變這個情況。該公司去年與34個研究實驗室、約150名研究人員合作,從22款不同的機器人收集數據,哈囉機器人公司的Stretch也是其中之一。相關數據在2023年10月公布,內容包含機器人示範527種技能,如撿東西、推東西、移動等。
參與計畫的加州大學柏克萊分校資工專家萊文(Sergey Levine)說,計畫的目標在於收集全球各地實驗室的數據,建立起「機器人網路」,讓研究人員能夠取得更多、更大型、更多元的數據。造就出當今生成式AI的深度學習革命,起源於2012年大型網路圖片庫ImageNet的崛起。機器人社群希望開放X體現合作計畫也能發揮類似作用,引爆機器人數據。
初期跡象顯示,數據愈多,機器人愈聰明。研究人員建立一個稱為RT-X的機器人模型,分兩個版本,可以在個別實驗室的電腦自行運作,也能從網路取得。針對可從網路存取的大型版本,研究人員先拿大型語言模型與圖像模型對它訓練,讓它建立起「視覺常識」,也就是對世界的基礎認識。
研究人員在多款不同機器人執行RT-X模型時,發現比實驗室單獨開發的系統更懂得學習技能,成功率高出50%。
「當初應該沒有人預期會有這個結果。」Google DeepMind機器人技術主管范豪科(Vincent Vanhoucke )說:「突然間,我們有機會利用所有數據來源,讓機器人出現高度智慧化的行為。」
范豪科說,許多機器人專家認為,大型視覺語言模型既然能夠分析圖像和語言資料,或許也能為機器人提供提示,幫助它理解周遭世界如何運作。這些語言模型提供語意線索,協助機器人詮釋圖像後進行邏輯思考、推論與 學習。研究人員測試事先經過大模型訓練的機器人,要它指出歌手泰勒絲(Taylor Swift)的照片。研究人員事前並未讓機器人看過照片,但范豪科說,機器人還是辨識得出來,因為它有整個網路的資料當作理解基礎,即使資料庫裡沒有泰勒絲的照片也不是問題。
范豪科說,Google DeepMind現在愈來愈常用類似機器翻譯的技術,把英文翻譯成機器人文。去年夏天,Google推出視覺語言動作模型,稱為RT-2,以線上文字與圖像為訓練素材,加上自己與現實生活的互動,進而建立起對世界的一般理解,再將這份數據轉譯成機器人動作。他補充道,每款機器人把英語轉譯成動作的方式略有不同。
「我們愈來愈傾向認為,機器人本質上是一種會說機器人語的聊天機器人。」范豪科說。
一步一步來
儘管機器人發展迅速,仍待克服重重考驗,才能在現實世界登場。對一般消費者來說,機器人還是太過笨拙,不值得花上幾萬美元投資購買。機器人也缺乏同時進行多項任務的常識。高伯格說,機器人不能只是撿起東西放到某個地方而已,還要懂得整理東西,例如把紙牌或桌遊放回盒子,再放入遊戲櫃。
但平托說,從機器人整合AI的初期成果來看,機器人專家的心血並沒有白費。
「我確信會出現某種形式的通用型居家機器人,但能夠普及嗎?我覺得沒辦法。」他說:「但我們已能看到原始智能表現的初步跡象。」
打造下一代機器人可能不只是幫助人類做家事,或讓亨利這樣的身障者更加獨立自主。對於平托等研究人員來說,目標更大。
他說,要判斷機器智慧是否達到人類層次,居家機器人是最好的指標之一。人類能夠展現智力因應居家環境的大小事,顯示這是可以達成的智力層次。
「我們有機會解決這個問題,只是還不知道怎麼做。」他說。
對亨利和簡恩兩夫婦來說,光是有一個運作可靠的機器人就已經是大幸,因為他們嘗試使用的Stretch機器人還是有許多問題,要靠研究人員到場排除故障,他們家的Wi-Fi連線有時也不穩定,影響亨利使用筆電跟Stretch溝通。
儘管如此,亨利說這項機器人實驗讓他重拾獨立,是最大的好處之一。「雖然只能待在床上,但現在我可以藉由操作機器人替自己完成一些事情。」
拜Stretch之賜,亨利打牌時可以自己拿紙牌,這也是他過去20年做不到的。
「我甚至有幾次把大家打得落花流水。」他說。
「夠了喔,也講得太誇張了。」簡恩說著便笑了起來。
------------------
何綺拉是《麻省理工科技評論》資深記者,報導人工智慧的趨勢與對人類社會的影響。
Copyright©2024, Technology Review. All Rights Reserved.
下載全文PDF