人工智慧　站在大躍進的起點？-工業技術與資訊月刊-出版品-新聞中心-工業技術研究院

:::

新聞中心

工業技術與資訊月刊

聯絡我們

出版日期：

觀念探索 Trend

人工智慧　站在大躍進的起點？

撰文／森默斯（James Somers）　翻譯／Aurore

不論是自駕車，圍棋下贏世界冠軍的電腦，或者任何您聽過的尖端人工智慧應用，其理論基礎都奠基於30年前的一項重大突破。人工智慧未來必須克服重重限制，才能持續有所進展。

我所在的位置可能即將成為全球矚目的焦點，也或許不過是多倫多市中心亮麗大廈七樓一間普通的寬敞辦公室。這裡是向量研究所（Vector Institute），帶我參觀的是共同創辦人雅各（Jordan Jacobs），研究所今年秋天啟用，以引領全球人工智慧發展為目標。

此行來到多倫多，是為了採訪「深度學習」之父辛騰（Geoffrey Hinton），時下最熱門的人工智慧，背後關鍵技術正是深度學習。雅各說：「 30年後回顧這段歷史，辛騰會被視為人工智慧界的愛因斯坦，因為所謂人工智慧其實就是深度學習。」辛騰的論文引用次數遙遙領先其他人工智慧領域中研究深度學習的頂尖學者，比第二到四名的總和還多。他所栽培的學生和博士後研究員陸續進入蘋果電腦、Facebook和OpenAI，掌理各公司的人工智慧實驗室；辛騰本人則在「Google大腦（Google Brain）」人工智慧團隊擔任首席科學家。事實上，翻譯、語音識別、影像識別、對奕等，人工智慧過去十年達成的種種成就，或多或少都奠基於辛騰的研究成果。

致力開發人工智慧於商業應用的向量研究所，吸引了來自Google、Uber、Nvidia等眾多美、加企業的資助，辛騰的構想眾所矚目的程度可見一斑。資金湧入速度之快，超乎雅各原先預期。研究所另外兩位合夥創始人針對多倫多地區，調查企業對人工智慧專家的需求量，發現市場需求量是加拿大每年所培育人才的十倍。某方面來說，無論是靠深度學習牟利，或針對這項技術進行教學、改良、應用，向量研究所都堪稱目前全球深度學習領域種種嘗試的原爆點。數據中心如雨後春筍般出現，新創公司爭相進駐摩天大樓，莘莘學子紛紛投身相關領域。

站在空盪盪響著回音的向量研究所內，頗有山雨欲來的氣氛。然而妙的是，深度學習的核心概念一點也不新。早在西元1986年，辛騰與同事羅姆哈特（David Rumelhart）及威廉斯（Ronald Williams）聯合發表的一篇突破性論文，就曾詳盡說明「倒傳遞」技術（backpropagation，簡稱backprop）。根據普林斯頓計算心理學家科恩（Jon Cohen）的說法，「倒傳遞」稱得上是「一切深度學習技術的基礎。」

時下人工智慧的精髓在於深度學習，而深度學習的精髓，竟在於30多年前所提出的倒傳遞技術。為何一項技術會在沉寂多年後才突然爆發？這是個值得探究的問題。一旦認識倒傳遞的發展歷程，才能看清人工智慧的現狀，並明白事實上我們說不定不在革命的起跑點上，而是到了終點。

一舉成名

現任多倫多大學榮譽教授的辛騰，大部分時間都在Google。我們從向量研究所走去他Google的辦公室，沿途所見就像走進這座城市的活廣告，至少夏天看來如此。一路走來，不難了解為何出身英國的辛騰，會在 1980 年代離開位於匹玆堡的卡內基梅隆大學，移居多倫多。

一旦踏出戶外，即使身處市中心金融區，也立刻彷彿置身大自然懷抱。是氣息吧，我猜。空氣中有濕潤的泥土味。素有「花園城市」之稱的多倫多座落於森林峽谷間，為保護林相，市政府對都市開發制定嚴格的規範。飛機進入多倫多上空時，城區四周只見如畫般的一片鬱鬱森森。

事實上我們或許不在革命的起跑點上。

多倫多是北美洲僅次於墨西哥市、紐約、洛杉磯的第四大城，也是當中最多元化的城市：超過半數市民的出生地不在加拿大。走在街頭就看得出來，不像舊金山放眼都是穿連帽上衣的年輕白人，多倫多的科技業集中區外國人較多。這裡有免費的醫療、良好的公立學校、友善的市民，以及安定左傾的政府，吸引了許多像辛騰這樣的移民前來。辛騰說自己是因為「伊朗軍售醜聞」離開美國，採訪開始沒多久，還沒用午餐，他就談起這件事。

「卡內基梅隆大學裡，很多人相信美國進軍尼加拉瓜有理，他們反正把尼加拉瓜當自家後院。」辛騰告訴我，他最近一項計畫大有進展，因為「找到一位非常優秀的年輕工程師加入。」Google多倫多辦公室將辛騰延攬進來前，伊朗籍的薩伯爾（Sara Sabour）申請美國工作簽證遭到拒絕。

69歲的辛騰面容和善，典型的英國長相，長臉、薄唇、大耳、高鼻，猶如童話故事裡的吹夢巨人。在英格蘭溫布頓出生的他，說起話來像在讀科普書給孩子聽：用引人好奇專注的語調，充滿熱忱地講解說明。他在接受採訪期間一直站著，我後來才知道是因為坐著會痛。風趣健談的他說；「我在 2005 年 6 月坐下來過，結果那一坐坐錯了。」他先說了這句讓人費解的話，才解釋自己椎間盤有毛病。因為腰椎出問題，不但無法搭飛機，採訪那天上午去看牙醫時，還得自備一個像衝浪板的奇怪道具到診所墊著，才有辦法躺平讓牙醫檢查斷裂的牙根。

辛騰在 1980 年代就已是神經網路領域的專家。神經網路是模擬大腦神經元和突觸組成的簡化構造，然而當時多認為這個研究方向在人工智慧領域毫無前景可言。第一代神經網路「感知器（Perceptron）」在1950年代問世，當時被譽為邁向機器具備人類同等智慧的第一步。1969年，麻省理工學院的明斯基（Marvin Minsky）和裴波特（Seymour Papert）共筆出版《感知器》一書，以數學方法證明這種網路只具備最簡單功能。神經網路只有兩層神經元，一層匯入，一層匯出，由數個匯入層和匯出層結合成的網路，理論上可以處理形形色色各種難題，但因為沒人知道怎麼訓練這些神經網路，所以無法發揮任何實際作用。除了少數像辛騰這樣堅持到底的人，一般人大多在看完書後就徹底放棄神經網路的研究。

辛騰在 1986 年獲得突破，說明倒傳遞可以用來訓練結構達兩、三層以上的深度神經網路，不過直到26年後，電腦運算能力才足以將他的理論付諸實行。辛騰和他多倫多大學兩名學生於 2012 年發表論文證明，以倒傳遞訓練的深度神經網路，在影像識別的表現上打敗了當時最先進的系統，「深度學習」於焉崛起。對外界而言，人工智慧彷彿突放異彩，但對辛騰而言卻是守得雲開。

現實扭曲力場

神經網路的圖解畫成一個層層疊疊的總匯三明治，每層由微小的運算單元組成。這些人工神經元如同大腦神經元一樣，平時安靜受到刺激時會把訊號傳遞給相連的神經元。神經網路以0.13或32.39 等數字表示每個神經元受刺激後的活躍程度，另外還有一組重要數字，用來標示網路中任兩個神經元間的訊號傳遞能力。後者類似大腦神經元間的突觸強度，數字愈大，代表連結愈強，也就是從一個神經元傳導至另一個神經元的刺激愈高。

影像識別是深度神經網路最成功的應用之一。HBO 影集《矽谷群瞎傳》中，主角開發出一支能辨認圖片中有沒有熱狗的程式，特別讓人印象深刻。現實中的確有這種十年前還寫不出來的程式。要讓程式認圖，首先要找一張圖片，例如一張長寛各100 像素的黑白圖片。把圖片匯入神經網路中，讓匯入層每個受刺激的神經元活躍程度，恰好符合每一個像素的明亮度。對應100x100像素的一萬個神經元分別代表圖片中每個像素的明亮度，這就是三明治的最下層。

接著，將這一大片上萬個神經元與上方另一大片上萬個神經元連結，層層相疊直到三明治最上面的匯出層為止。匯出層只剩兩個神經元，一個代表「有熱狗」，一個代表「沒熱狗」。目標是訓練神經網路在圖片中有熱狗時，只將刺激傳導給「有熱狗」神經元，若沒有才將刺激傳導給「沒熱狗」神經元。辛騰投注畢生心力的倒傳遞技術，正是執行這套訓練方法。

倒傳遞的原理極其簡單，但要大量資料才有理想效果。因此，大數據對人工智慧至關緊要，這正是Facebook 和Google對大數據求之若渴的原因，也是向量研究所堅持三顧茅廬，取得加拿大前四大醫院同意進行數據合作計畫的理由。

以識別圖片中有無熱狗為例，需要幾千幾百萬張分別有熱狗和沒有熱狗的圖片，並一一標記其中有熱狗的圖片。全新的神經網路建立時，就像突觸尚未微調過的人類大腦，神經元間的連結強度沒有規則可言，換句話說，每個連結能傳遞的刺激值呈現隨機分布的狀態。倒傳遞的目標是藉由調整連結強度，讓神經網路最上層的「熱狗」神經元，對最下層接收到的熱狗圖片刺激作出反應。

假設第一張用來訓練網路的照片裡是鋼琴。100x100 的圖片中，每一個像素強度各以一個數值代表，這一百萬個數值就構成了神經網路最下層的每一個神經元。輸入的刺激從最下層開始，透過各個神經元間強弱不一的連結，層層往上傳遞，達到只剩兩個神經元分別代表有無熱狗的最上層。理想情況下，輸入鋼琴照片的結果，最上層「有熱狗」神經元的數值應該是零，而「沒熱狗」神經元的數值會大於零。

萬一結果不符，神經網路答錯了怎麼辦？這時，啟用倒傳遞程序可以逐一調整神經網路中每個連線強度，以確保輸入同一道題目能得出正確解答。倒傳遞是從最上層兩個神經元開始偵錯。先衡量試答數值跟正確解答間相差多少後，再檢查這兩個最上層神經元和下一層（也就是從上往下數第二層）神經元間的每一個連結，釐清這兩層間的刺激傳遞強度對答題錯誤的影響。如此層層向下，檢查到網路最下層為止，最後再根據每一個連結的強弱在多大程度上造成最後得出錯誤答案，逐一調整每個連結的數值，盡量得出與理想數值接近的答案。這個方法因為是從輸出結果開始回頭倒推偵錯，因此命名為「倒傳遞」。

神奇的是，經過幾百萬甚至上百億張圖片訓練後，這個神經網路識別照片中有無熱狗的準確度會開始提升。更厲害的是，層層分工識別影像的「看」圖片方式，變得愈來愈像人類視覺系統。例如，第一層可能慢慢看得到「邊」，也就是說，這層的神經元遇到影像中有邊的部分會受到刺激而活躍，反之則無。往上一層神經元可能認得出線的組合，例如「角」；再上一層或許能判別形狀；再上一層則分辨得出照片中的麵包有沒有切開，也就是說，在這一層發展出兩種神經元，一種只對切開的麵包產生反應，一種只對沒切開的麵包產生反應。換言之，在沒有特別設計的情況下，這個神經網路會自己發展出由下到上分層負責的結構。

真正的智慧不會因為題目稍微變化一下就解不來。

這是最讓所有人驚訝的部分：神經網路不只分得出照片裡有沒有熱狗，居然好像有建構知識的能力。這種趨勢在處理文字時更明顯，把幾百億字的維基百科詞條全數滙入一個簡單的神經網路，訓練系統針對每一個字詞匯出一長串數字，每一個數字代表同一層每個神經元受刺激的活躍度。把這些數字想像成座標的話，等於每個字詞都可以在同一個空間中找到各自的對應位置（這裡稱「向量」）。接下來只要訓練神經網路對維基百科同一個頁面上位置相近的字詞設定相近的座標，瞧，神奇的事情發生了：在這個錯蹤複雜的空間中，意思接近的字詞位置也離得很近。也就是說，「瘋狂」和「錯亂」的座標相近，「三」和「七」的座標相近，諸如此類。尤有甚之，運用所謂的向量算式，把代表「巴黎」的向量減去代表「法國」的向量，加上代表「義大利」的向量後，所得出的向量會落在「羅馬」附近，而且前提是沒人特別先教神經網路，羅馬之於義大利等同巴黎之於法國。

辛騰說，「真是太神奇，太讓人震驚了。」神經網路似乎在把影像、文字、談話錄音檔、醫療數據中的每個單元放進數學家所稱的高維空間中時，會讓各個單元彼此間的距離遠近反應出他們在真實世界中的重要特徵。辛騰相信，這就是大腦的運作方式。他解釋：「若你想知道某個想法是什麼，我可以用文字描述給你聽。例如我可以說：『約翰心想：哎呀。』」但若你問：『思想本身是什麼？這個念頭對他的意義是什麼？』約翰的大腦裡可沒有前括號、哎呀、後括號，甚至沒有這些的簡化版，他腦子裡其實是一大片神經活動。」這一大片腦神經活動，對數學家來說，可以放在向量空間中理解，每個神經元的行為都以一個數字代表，每個數字都對應到某個巨大向量座標中的一個點。在辛騰看來，這就是思想，思想就是向量之舞。

這正是為何辛騰將多倫多這所頂尖大型人工智慧研究中心，命名為向量研究所。

辛騰所在之處彷彿現實隨之扭曲，四周洋溢著篤定的熱情，讓人感覺向量無所不能。畢竟，向量可是已經促成了自駕車、癌症診斷軟體、口譯機的成型。更何況，看看眼前這位暢談高維空間梯度下降法的英國科學家，多麼迷人。

告辭後才想起來，這些「深度學習」系統雖然偶而看來聰明，但還是蠻蠢的。看到照片中桌上有一堆甜甜圈，會自動貼上標籤「桌上有一堆甜甜圈」的電腦，乍看似乎對世界具有理解力。但同一支程式看了照片中有個女孩正在刷牙，卻說「這個男孩握著球棒」時，就不難明白系統的實際理解力有多薄弱（如果有理解力可言的話）。神經網路不過是不具思考能力的圖形辨識程式，因為圖形辨識功能極強，所以很快就與各種軟體結合，但充其量智力還很淺薄，容易騙過。只要改掉區區一個像素，或加上人眼看不見的視覺干擾，深度神經網路的影像識別能力就會徹底失靈。事實上，深度學習應用愈來愈多的同時，侷限性也一一浮現，例如自駕車可能無法應付不熟悉的情境，機器無法分析需要生活常識才能理解的句子。

某些方面而言，深度學習是對人腦的模仿沒錯，但很表層，也因此有時顯得智力淺薄。確實，倒傳遞的開發並沒有深入研究大腦，分析思想本身，而是依循古典控制實驗中動物試誤的學習模式。深度學習發展過程中許多長足進步，並沒有導入神經科學的新知識，只是經過數學及工程學多年鑽研而獲得的技術改良。與浩翰的未知相較之下，我們對智慧的認識微乎其微。

和辛騰在多倫多大學同一個系所擔任助理教授的杜文諾（David Duvenaud）認為，深度學習就像物理學出現之前的工程學。「有人寫了一篇論文，說『我建了這座橋，沒倒！』另一個人寫了篇論文：『我建了這座橋，倒了，不過加幾根柱子後，就好好立著了。』於是柱子一炮而紅。等有人提出建拱橋，又換成『拱橋太棒了！』他說：「有了物理學，才辦法實際明白什麼行得通及為什麼行得通。」他說，直到最近我們才算得上真正了解人工智慧。

辛騰自己也說：「研討會大多著眼在小改變，而非努力思考『現在這種作法有哪裡不足？哪些地方有困難？我們應該聚焦在這上面才對。』」外界很難理解這件事的重要性，因為大家只看到一個接一個的飛躍進步，但是人工智慧最新進展偏重在工程而非科學層面，甚至只算縫縫補補。雖然我們已經更了解如何改進深度學習系統，但仍然不太清楚這些系統的運作方式，也不知道最終是否有可能變得像人腦一樣強大。

我們或許應該要思考，倒傳遞的用途是不是幾乎都開發出來了？要是這樣，或許表示人工智慧發展已進入高原期。

耐心

想看出哪一個理論會成為下一個讓機器智慧更靈活的明日之星，或許應該往處境與1980年代倒傳遞理論相似的研究去找，看看是不是有什麼現在還行不通的想法，仍有聰明人堅持鑽研下去。

幾個月前，我到心智大腦與機器研究中心（Center for Minds, Brains, and Machines）去旁聽朋友德克特（Eyal Dechter）的認知學論文答辯。這所跨機搆研究中心，總部位於麻省理工學院。答辯開始前，妻子艾米、愛犬魯比、女兒蘇珊娜在他身邊加油打氣。當時螢幕上有一張魯比的照片，旁邊還有一張蘇珊娜嬰兒時期的照片。德克特請女兒指出自己在哪裡，蘇珊娜聽了很開心地拿著長長的伸縮指揮棒，點在自己嬰兒時期的照片上。蘇珊娜推著一輛玩具推車跟在媽媽身後往外走時，回頭高喊「爸爸，加油！」最後用西班牙語加了一句「我們走吧（Vámanos）！」蘇珊娜才兩歲大。

德克特用一道有趣的問題為他的答辯開場：蘇珊娜是怎麼在短短兩年的生活經驗中，學會說話、玩耍、聽故事？人腦為什麼學習能力這麼出色？電腦是否有天也可以學得這麼快、這麼順？

人類根據已知的事物去理解新現象；我們將一個領域分成片段後，再一段一段的學習。德克特身兼數學家和程式設計師，作舒芙蕾點心在他眼中就像複雜的電腦程式，但這不表示學作舒芙蕾，需要像「手肘轉30度，低頭看桌面，伸出食指，接著⋯⋯」這樣一一學習整套程式中幾兆個指令細節。要是每種新能力都照這方法，不但很難學，還會浪費時間在很多早就學過的動作。因此，我們只管程式中「打蛋白」之類的步驟，這種步驟包含了「敲開雞蛋」和「分離蛋黃」等次級程式。

電腦就做不到這點，這是電腦呆的主因之一。要讓一個深度學習系統學會識別熱狗，可能得先餵給系統4,000萬張熱狗圖片。要讓蘇珊娜學會認熱狗，讓他看一根熱狗就足夠。要不了多久，蘇珊娜不只知道某些字詞經常同時出現，還會對語言有更深的理解。與電腦不同的是，蘇珊娜的腦中有一個世界運作方式的模型。德克特說：「我很難想像怎麼會有人擔心自己的工作被電腦搶走。電腦無法取代律師，不是因為律師能處理極其複雜的事情，而是因為律師能察顏觀色和交談。電腦要追上人腦，根本還差得遠。」

真正的智慧不會因為正在解的題目稍微改了條件，就解不出來。德克特論文的重點原則上在說明如何讓電腦具備這種真智慧，能無礙地在執行新任務時運用已學會的知識，並能迅速地在接觸新領域時從生手成為專家。

作法基本上是透過德克特命名為「探索壓縮運算法（Exploration-Compression Algorithm）」的軟體，讓電腦學程式設計師一樣，先建立起一個資料庫，再用資料庫中可重複使用的模組組成更複雜的程式。面對一無所悉的新領域，電腦建立知識的方法就像人類小孩，東玩西玩，把新發現的東西集中起來，繼續再玩。

德克特（Eyal Dechter）的指導教授是特南勃（Joshua Tenenbaum）。特南勃是人工智慧領域論文引用次數最多的學者之一，我採訪過的其他科學家，半數以上都會提到過他的名字。2016年AlphaGo擊敗世界圍棋冠軍，震驚了電腦科學界，AlphaGo背後的DeepMind團隊中，就有好幾名重要成員，曾是他的博士後研究員。特南勃曾參與一家新創公司的研發，試圖為自駕車增加一些基礎物理學的直觀能力，以及對於路上其他駕駛想法的直覺判斷，提高自駕車遇到沒經驗的狀況時（例如有卡車突然超車進來或有人硬要切進車道），預測情勢發展的能力。

德克特的論文還尚未成為類似的具體應用，遑論開發出超越人腦而登上頭條的程式。特南勃說，德克特研究的主題「實在非常非常的難，恐怕要好幾代的時間才有成果。」

特南勃頂著一頭開始變白的長捲髮，和我一起喝咖啡的那天，他穿著黑色休閒褲，領口有扣的襯衫。他告訴我他一向用倒傳遞的故事勉勵自己。倒傳遞曾經被當作酷炫的數學理論，在這長達幾十年的時間內卻毫無實際建樹，直到電腦跑得更快，設計得更精細，才開始一鳴驚人，大放異彩。特南勃指望同樣的事情能夠發生在自己和學生的研究上，「不過恐怕還得再等幾十年。」

至於辛騰，他相信，克服人工智慧侷限性的關鍵，在於打造「一座連接電腦科學和生物學的橋樑」。從這個角度來看，理論發想並非源自於工程學，反倒是心理學的倒傳遞，可以說是運算理論受生物學啟發的成功案例，因此，辛騰打算要重施故技。

「這個理論只是暫時還沒應用成功。」

目前的神經網路是由很大的平面層層堆疊而成，但是，大腦新皮層的神經元實際排列方式不僅水平分層，也垂直成排。辛騰自認了解這些垂直結構的功用，以視覺為例，這些垂直結構讓我們能從不同角度辨識出同一個物體。為了驗證這個理論，他正在打造人工智慧版的相同結構，並命名為「膠囊」（capsules）。目前為止，實驗還沒成功，這些膠囊並未顯著提升神經網路的效能。不過，這情況在他當年研究倒傳遞時就嚐過，而且長達近30年。

於是，他拿自己對於膠囊理論的義無反顧，開起了玩笑：「這玩意兒肯定沒有錯，只是暫時還沒成功而已。」

森默斯（James Somers）身兼作家及程式設計師，現居紐約市。

下載全文PDF

進一步了解技術

新聞中心

工業技術與資訊月刊

人工智慧 站在大躍進的起點？

一舉成名

現實扭曲力場

耐心

人工智慧　站在大躍進的起點？