396期2025年06月號
出版日期:2025/06/15

觀念探索 Insights & Trends
複製與創作的界線
撰文/歐唐納(James O’Donnell) 翻譯/連育德
本刊取得美國麻省理工學院Technology Review期刊圖文授權。
人工智慧(AI)這個詞在1956年還不存在。那年夏天,多位頂尖電腦科學家齊聚美國的達特茅斯學院(Dartmouth College),出席一場研討會議,旨在討論如何打造一種機器,讓它能夠使用語言、像人類一樣解決問題以及自我提升效能。電腦科學家麥卡錫(John McCarthy)最初為這場會議準備籌資提案時,才想出「人工智慧」一詞,但這個詞確實取得好,捕捉到主辦單位的創立理念:人類智慧的任何一項特性,「原則上均能取得精準描述,進而得以研發出機器並模擬這些特性」。
在會議提案中,與會專家先已列出幾項「人工智慧問題的面向」,最後一項是打造能夠展現創意與原創性的機器。如今看來,這點或許也是最難解的問題。
人類創意該如何定義與衡量,在當時讓心理學家傷透腦筋,因為原本的主流理論逐漸式微,大家不再認為創意是智力與高IQ的產物,但心理學家還不確定有哪個新的理論可以取代。達特茅斯會議的主辦專家自有一套見解。他們寫道:「一種是創意型思考,一種是缺乏想像力的功能型思考,兩者差異在於注入一些隨機性。」但他們也補充指出,這種隨機性「必須憑藉直覺,才能發揮效率」。
事過境遷將近70年,AI領域經過數次大起大落,如今市場已有或多或少遵循當年原則的AI模型。過去3年,能夠生成文字的大型語言模型大爆發,同時也有一種稱為「擴散模型」(Diffusion Model)的AI技術正在發酵,對創意領域造成前所未有的衝擊。擴散模型收到文字提示或其他輸入資料後,將隨機雜訊轉化為連貫的模式,進而生成新的圖像、影片或語音。若是厲害的模型,生成的內容跟真人作品難以分辨,但也會生成怪誕又超現實的內容,明顯沒有人的特質。
如今,這些模型正在挺進最容易遭到顛覆的創意領域:音樂。無論是管弦樂還是重金屬搖滾,AI生成的作品預計充斥在我們的日常生活,普及程度更勝其他AI產物。這些音樂可能出現在串流平台、派對與婚禮播放清單、配樂等,我們甚至可能沒有注意到創作者是誰(或是何物)?
擴散模型的生成內容究竟是創作,還是單純複製,在視覺藝術界已引發熱議多年,現在這場爭論也延燒到音樂,一種深植於人類經驗、記憶與社交的藝術形式。目前的音樂模型已能創作出動人心弦的歌曲,在在凸顯出一點:置身這個AI時代,「創作者」與「原創性」愈來愈難定義。
法院正在積極處理這片模糊地帶。主流唱片公司已對幾家知名AI音樂生成平台提出訴訟,指控擴散模型只是在複製人類藝術,卻未給予藝術家任何補償。模型開發商則反駁,這些工具的設計初衷在於協助人類創作。
在釐清誰對誰錯之前,我們不得不認真思考什麼是人類創意。無論是人工神經網路還是生物神經網路,創意是否只是大量統計學習與建立連結下、再加上一點隨機性的結果?倘若如此,「創作者」便成了難以捉摸的概念。但如果創意明顯蘊含人性特質,那麼「創作者」又是什麼?如果我們被非人創作者的作品所打動,這代表什麼含意呢?我第一次聽到一首真正好聽的AI創作歌曲時,內心不禁冒出這些問號。有個人只是打出指令,按下「生成」就寫出這首歌,我想到這點就忐忑不安。同樣的處境,你不久也會面臨。
建立連結
達特茅斯會議落幕後,與會專家各自走上不同的研究道路,致力於打造AI的基礎技術。與此同時,認知科學家也回應美國心理學會(American Psychological Association)會長吉福德(J.P. Guilford)在1950年的呼籲,解開何謂人類創意的課題。他們後來得出一個定義,由心理學家史坦(Morris Stein)於1953年在《心理學期刊》(Journal of Psychology)首度正式提出:所謂創意作品,必須同時具備「新奇性」與「實用性」,前者代表創新,後者是指對某人有實際用途。有些學者後來主張應該把「實用性」改成「滿意度」,也有人提出應該加入第三項標準:創意還必須「出乎意料」。
到了1990年代,功能性磁振造影(fMRI)技術興起,科學家得以進一步研究大腦中驅動創意的神經機制,研究範疇涵蓋多個領域,音樂也在其中。運算方法近年大幅進步,也讓科學家更容易描繪出記憶與聯想思考(Associative Thinking)在創意決策中扮演的角色。
但研究至今,對於創意如何在大腦產生與發展的命題,科學界尚無一套完整理論,反而是累積了愈來愈多的有力觀察。人類的創意過程可先分成幾個階段:最初是發想或構思,再進入批判與評估,判斷哪些想法具有價值。這兩個階段的驅動因素是什麼,可用一個主流理論來解釋,稱為「創意聯想理論」(Associative Theory of Creativity),也就是,創意最豐沛的人能在彼此看似不相關的概念建立起新連結。
「可能就像擴散激發(Spreading Activa-tion)的過程。」賓州州立大學(Penn State)創意認知神經科學實驗室負責人畢提(Roger Beaty)解釋說:「想到一個概念,自然而然觸發與它相關的其他概念。」
這些連結主要依賴儲存概念與事實的語意記憶(Semantic Memory),而非情節記憶(Episodic Memory),後者負責儲存特定時間與地點的記憶。科學家近年運用更精密的運算模型,研究人類如何將兩個「語意距離」(semantic distance)遙遠的概念建立連結。比方說,「世界末日」這個詞跟「核能」比較相關,不會讓人想到「慶祝」。研究發現,創意型人想到語意差別很大的概念,可能會覺得彼此相關。藝術家產生文字聯想時,能夠比一般人橫跨更遠的語意距離。其他研究也認為,創意型人有注意力漏洞的特質,亦即經常會注意到與眼前任務無特別相關的資訊。
用神經科學方法來評估這些過程,並未發現創意來自大腦某個特定區域。「大腦不像腺體會分泌荷爾蒙,並不會分泌出創意。」創意研究權威西蒙頓(Dean Keith Simonton)在《劍橋創意神經科學手冊》(Cambridge Handbook of the Neuroscience of Creativity)中寫道。
畢提指出證據剛好相反,大腦在創意思考時會啟動幾個分散的神經網路,一個透過聯想思考產生初步構想,一個會判別哪些構想有潛力,一個則負責評估修正。根據哈佛醫學院研究人員在2月發表的一項新研究,創意甚至可能會抑制大腦某些特定神經網路,例如自我審查的網路。
現階段而言,所謂的「機器創意」看起來與人類創意大相逕庭。達特茅斯會議舉辦當時,AI研究人員的關注重點固然在於機器如何向人腦取經,但等到大約10年前擴散模型問世時,研究人員已經轉移焦點。
擴散模型的運作原理,看名字就知道。想像你把沾滿紅墨水的畫筆浸入玻璃杯,墨水在水中擴散旋轉,看似隨機,最後變成淡粉色液體。擴散模型反向模擬這個過程,從隨機狀態重建出可辨識的形式。
以圖像說明,假設有一張大象的照片。為了訓練模型,先把這張照片複製一份,然後疊加上一層隨機的黑白雜訊。再複製一份,多加一層雜訊,如此重複數百次,直到最後一張只剩下純雜訊,完全看不出大象。針對層層疊疊的每一張圖,統計模型會預測有多少是雜訊、有多少是真正的大象,並將預測結果與正確答案比對,從錯誤中學習。經過數百萬個的訓練案例後,模型愈來愈擅長「去雜訊」,並將這些圖像與描述詞連結,描述詞例如「婆羅洲公象站在空曠草地」。
模型完成訓練後,生成新圖像就是把這個過程反過來。只要輸入一個提示詞,例如「長滿青苔的森林裡有一隻快樂的紅毛猩猩」,模型會先生成一張由隨機白雜訊組成的圖像,反向運作,透過統計模型一步步移除雜訊。最先會浮現模糊的形狀與顏色,然後是細節,成功的話最後就會出現一隻紅毛猩猩。模型在過程中完全不必「知道」什麼是紅毛猩猩。
音樂圖像
這種方法應用在音樂也成立。真人樂團創作歌曲會先從鋼琴和弦開始,再加入人聲和鼓聲,但擴散模型不同,所有元素同步生成。之所以如此,是因為一首歌涵蓋的元素錯綜複雜,但可以用一張波形圖(Waveform)呈現,也就是把聲波振幅隨時間變化畫成曲線。
不妨想像一下唱片機,唱針沿著黑膠唱片的刻痕前進,會模仿唱片上雕刻的聲波路徑,轉成信號送到揚聲器。揚聲器單純根據這些模式把空氣推出,產生聲波,就此播放出整首歌。
從遠處看,波形圖彷彿只是顯示音量變化,但如果把它放大,可看到尖峰與谷底的一連串圖形,例如貝斯吉他彈奏低音G時,每秒會產生49個波。波形圖涵蓋所有樂器與織體(Texture)的頻率總和。「有些形狀會慢慢浮現。」AI音樂公司Udio共同創辦人丁恩(David Ding)說:「這些形狀對應到整體旋律的輪廓。」
波形圖或類似的頻譜圖(Spectrogram)都能當成圖像處理,因此也能用來建立擴散模型。模型會讀取數百萬個現有歌曲的片段,每段都附有文字描述。要生成一首新歌時,模型會先從純粹的隨機雜訊開始,再一步步反向推回,產生新的波形圖。至於它會走哪條路徑,取決於輸入的提示詞內容。
丁恩曾在Google DeepMind擔任資深研究工程師5年,負責開發圖像與影片的擴散模型,但隨後於2023年離職,在紐約創辦Udio公司。連同位於美國麻州劍橋的競爭對手Suno,這兩家公司目前在音樂生成模型的競賽居於領頭羊地位,目標都是打造AI工具,讓素人也能創作音樂。Suno的規模較大,號稱使用者已超過1,200萬人,並在2024年5月完成1.25億美元募資,合作藝人包括提姆巴蘭(Timbaland)。Udio則在2024年4月籌得1千萬美元種子資金,投資人包括知名創投霍羅維茲(Andreessen Horowitz),還有威爾(Will.i.am)與凡夫俗子(Common)等音樂人。
從Udio與Suno目前的成果可看出,有不少人可能不在意自己聽的音樂是由人還是由機器創作。Suno設有創作者專屬頁面,有些人已累積大量粉絲,他們完全靠AI生成歌曲,通常還會搭配AI生成的肖像。這些創作者並不算傳統定義的音樂人,而是擅長下提示詞,作品無法說是出自哪個作曲家或歌手。在這個新興領域裡,「創作者」的既有定義幾乎瓦解,「創作」與「複製」的界線也模糊不清。
音樂產業開始反擊。2024年6月,兩家公司遭到大型唱片公司提告,訴訟至今仍在進行中。根據環球音樂(Universal)與索尼音樂(Sony)等音樂公司的指控,這些AI模型以版權音樂為訓練素材,「規模難以想像」,並生成「模仿真人錄音品質」的歌曲。以Suno的訴訟案為例,有首創作聽似ABBA合唱團的歌,甚至借用原曲歌名,取名為《繃跳女王》(Prancing Queen)。
本刊聯絡Suno說明訴訟案,並未得到回應,但Suno執行長舒爾曼(Mikey Shulman)去年8月曾在官方部落格對此聲明,該公司的訓練素材來自公開網路上的音樂,「確實包含受版權保護的作品」。但他同時表示:「學習並不是侵權。」
Udio的代表則表示,該公司不評論尚未判決的訴訟。Udio在訴訟階段曾發布聲明指出,他們的模型有過濾機制,能確保「不會重製版權作品或藝人聲音」。
讓情況更複雜的是,美國著作權局(Copy-right Office)在1月公布相關指引,指出AI生成作品如果包含相當程度的人為創作,仍可獲得版權。隔月,有位以AI創作出視覺藝術作品的紐約藝術家拿到版權保護,可能是歷史首例。接下來或許就是歌曲取得版權了。
是創新還是模仿
這些訴訟案涉及AI發展的灰色地帶,正如其他領域的官司一樣。爭議點出在,訓練AI模型能否使用受版權保護的內容,生成歌曲又是否不當抄襲某位音樂人的曲風。
但無論判決結果如何,AI音樂很可能以某種形式逐漸普及。據報導,YouTube已與大型唱片公司洽談授權音樂作為AI訓練素材,Meta近期也與環球音樂集團(Universal Music Group)擴大授權協議,顯示授權訓練AI音樂的合作模式不無可能。
如果AI音樂成為常態,它會「好聽」嗎?這點可從訓練資料、擴散模型本身、提示詞輸入等三大要素來看。模型的品質要好,取決於它所學習的音樂資料庫以及描述音樂的文字,描述必須夠細膩,才能完整捕捉到音樂的精神。
接著,模型架構會判斷能否利用所學來生成歌曲。而模型接收到的提示詞與「理解」能力同樣重要,例如模型如何詮釋「降低薩克斯風的音量」。
或許最重要的要素是第一個:訓練資料有多龐大多樣?資料標註的品質有多好?Suno與Udio都尚未公開訓練資料包含哪些音樂,但可能在訴訟過程不得不揭露。
Udio表示,歌曲的標註方式對模型很重要。「如何讓音樂的描述愈來愈精細,是我們積極研究的一個領域。」丁恩說。最基本的標註是描述曲風,但也可以進一步說這首歌是憂鬱、是激昂,還是平靜。更技術一點,標註可能還會寫出2-5-1和弦進行或特定音階。Udio指出,他們的做法是結合機器標註與人工標註。
「我們的目標用戶很廣泛,所以也需要各類型的音樂標註人員。」他說:「不只是借重能夠專業描述音樂的音樂博士,也要有音樂愛好者,因為他們形容音樂時有自己的非正式語彙。」
AI音樂生成平台的激烈競爭,因此也必須持續從人類創作的新歌學習,否則生成作品只會停留在過去,聽起來過時而了無新意。AI音樂模型現在的學習素材仍舊以人類作品為主,但未來可能會從自己的生成作品取經,其他AI領域已經在實驗這種做法。
AI模型一開始是隨機從雜訊採樣,因此具備非確定性(Nondeterministic),亦即,同一個AI模型輸入相同的提示詞,每次生成的歌曲都會不同。另一個原因是,許多擴散模型的開發公司(包含Udio)會在過程中額外注入隨機性,就好比把每個步驟生成的波形圖稍微扭曲,希望這些小瑕疵增添成品的趣味或真實性。1956年那場達特茅斯會議的主辦專家便是建議這種做法。
Udio共同創辦人暨營運長桑切斯(Andrew Sanchez)指出,生成式AI模型正是存在隨機性,成品才會讓許多人大感意外。過去70年來,電腦都是執行具有確定性(Deterministic)的程式:將指令輸進軟體,每次都會得到相同結果。
「許多跟我們合作的音樂人會納悶:結果為什麼會這樣?」他說:「我們其實也不確定。」置身這個生成時代,我們需要建立起全新的心態,即便是開發公司也要知道,AI程式可能雜亂無章而難以捉摸。
生成作品是創作,或只是在複製訓練資料?AI音樂的粉絲說,這個問題也適用於人類創意。我們年輕時聽音樂,負責學習的神經機制更易受到影響,形成記憶,進而左右我們的創作成果。在萊斯大學(Rice University)擔任音樂教授的作曲家布蘭特(Anthony Brandt),近期在一項研究指出,人類與大型語言模型一樣,都是利用過往經驗來評估未來可能情境,做出更好的選擇。
確實,人類藝術很多都是借用他人靈感下的結果,音樂圈尤其常見,因此常有音樂人告上法庭,指控歌曲未經同意就被複製或節錄。有些音樂人認為,擴散模型應該更加透明化,公布歌曲的靈感來源,例如四分之三是華麗搖滾巨星大衛鮑伊(David Bowie),四分之一是龐克搖滾教父路瑞德(Lou Reed)。Udio表示,目前已有相關研究探討實務做法,但還沒有公司能切實做到。
放眼偉大的藝術家,「創新與影響同時存在。」桑切斯說:「我覺得AI技術也是如此。」
然而,有許多領域試圖將人類神經網絡與人工神經網絡畫上等號,但往往經不起仔細檢驗。布蘭特指出,有一個領域可以看出人類的創意明顯超越機器,他稱之為「放大異常」。AI模型的運作基礎是統計取樣,目標在於減少誤差、找出可能存在的模式,而不強調特例。人類就不同了,往往被奇特之處吸引。這些奇特之處,「不被當成異數或一次性事件,反而會融入創作成品。」布蘭特寫道。
他舉例說,貝多芬在《第八號交響曲》的最後一個樂章中,特意加入一個彷彿走音的突兀音符。「貝多芬本來可以就此打住。」布蘭特說:「但他沒有把這個決定當成例外,還不斷用各種方式回應這個不協調的音符,把一個短暫的異常放大成深遠的影響。」類似的異常做法也出現在其他音樂,例如披頭四晚期作品會有倒放錄音的片段、歌手法蘭克海洋(Frank Ocean)把自己的歌聲升調,或者歌曲融入「環境音」,例如錄下行人號誌聲或關門聲、CP查理(Charlie Puth)等歌手,以及怪奇比莉(Billie Eilish)的製作人菲尼亞斯(Finneas O'Connell)特別偏愛這個技巧。
如果創作的定義確實兼具「新奇性」與「實用性」,布蘭特的解讀或許意味著:機器在「實用性」這點可能已經趕上我們,但「新奇性」還是人類厲害。
為了驗證這一點,我花了幾天時間實際操作Udio模型。生成30秒的音樂需要1、2分鐘,但付費版本能夠生成完整歌曲。我決定選12種曲風,各生成一小段歌曲,再找出由人類創作的相似音樂。我還設計了小測驗,請新聞室同事分辨哪些歌曲是AI創作。
結果答對率平均是46%,某些曲風(特別是純樂器)的答對率更低。我看著大家進行測驗,每個人聽到聲音假假的樂器,或是奇怪的歌詞,都很有信心指出這是AI作品,但我發現這些線索常常是錯的。就跟預期的一樣,如果是自己不熟悉的曲風,答對率比較低,例如有些人在鄉村或靈魂樂的表現還可以,但對爵士、古典鋼琴或流行音樂完全沒輒。創意研究專家畢提的答對率有66%,反觀作曲家布蘭特只有50%,但他在管弦樂與鋼琴奏鳴曲的測驗全對。
會有這些歌曲,並非都是AI模型的功勞,背後還是有賴音樂人創作出作品,再當成訓練資料。然而,只需要幾個提示詞,模型就能生出一首幾乎無人辨認得出的AI歌曲,有些拿到派對上播放,可能也不會人反對。而我這個從小學音樂、對音樂一向挑剔的人,甚至找到兩首真心喜歡的作品。只不過,聽起來「真實」,並不等於「原創」。這些歌曲聽不到怪奇或異常的元素,更別說像貝多芬那樣的「驚嚇效果」了。此外,AI歌曲似乎也不會打破曲風界線或大幅跳躍主題。在我的測驗中,大家有時分不出歌曲是AI作品,還是單純難聽。
分不分得出來,最終會有多重要?法院將扮演重要角色,決定出AI音樂模型到底是複製還是創作,音樂人又應該如何獲得補償。但我們身為聽眾,會決定這些模型的文化價值。要欣賞一首歌,我們是否要想像背後有個有經驗、有抱負、有想法的音樂人?如果一首好歌被發現是AI創作,它還算好歌嗎?
桑切斯說,大家或許會想知道創作者是誰。「但說到底,不管AI占了多少成分,人類又占了多少成分,藝術終究是藝術。」他說:「大家看的還是它的美學價值。」
但在我的實驗裡,我發現這個問題對大家真的很重要,有些人甚至強烈排斥欣賞AI音樂。有個受測者聽到一首電子流行歌曲時,不自覺隨著音樂搖頭晃腦,但臉上卻露出疑惑的神情,彷彿在努力想像創作者是人類,而不是電腦。「天啊。」她說:「我真心希望這不是AI。」
它偏偏就是。
歐唐納是《麻省理工科技評論》記者,報導人工智慧趨勢。
Copyright©2025, Technology Review. All Rights Reserved.
下載全文PDF