『您的瀏覽器不支援JavaScript功能,若網頁功能無法正常使用時,請開啟瀏覽器JavaScript狀態』

跳到主要內容區塊

工業技術研究院

:::

工業技術與資訊月刊

389期2024年10月號

出版日期:2024/10/15

正方形 Icon 觀念探索 Insights & Trends

資料量大爆炸,如何留傳未來世代?

撰文/佛斯(Niall Firth)  插圖/麥奎德(Mike McQuade) 翻譯/連育德

本刊取得美國麻省理工學院Technology Review期刊圖文授權。
本刊取得美國麻省理工學院Technology Review期刊圖文授權。

我很喜歡女兒的一張照片。她坐在我們舊家後院,笑容滿面,胖嘟嘟的雙手抓著沁涼的小草。照片是我在2013年拿老舊的三星數位相機拍的,她那時即將滿周歲。我原本將照片儲存在筆電裡,後來轉到笨重的外接硬碟。

過了幾年,我又把照片上傳到Google相簿,現在只要搜尋「草」這個字,Google演算法就會找出這張照片,每次看到都讓我會心一笑。

我每個月付1.79英鎊給Google,讓它保管我的回憶,等於是對這家成立只有26年的公司抱持莫大的信任,不過能夠省下麻煩,似乎值得。現在雜七雜八的資料實在太多,要持續更新又要安全儲存,太費時費力。

我爸媽就沒有這個煩惱,他們偶爾拿底片相機幫我拍照,定期把底片洗出來放在相簿裡。過了40多年,照片雖然已經泛黃褪色,但拿出來看沒有問題,每年就那麼幾張。

接下來幾十年,許多回憶也都是留存在紙上。我20多歲出國旅行時,陸陸續續收到朋友的來信,都是他們手寫在橫格紙上的心意。這些信如今還被我塞在鞋盒裡,見證了那個沒有網路的時代,看了雖然讓人莞爾,但保存的容量相對迷你。

我們如今不再受空間限制。我的iPhone手機每年拍下幾千張照片。Instagram與TikTok的動態不斷更新。我們發送的WhatsApp訊息、簡訊、電子郵件與推文高達幾十億則。

儘管資料排山倒海而來,卻更加短暫。或許在不久的將來,YouTube將不復存在,裡頭的影片可能永遠消失。臉書(還有你叔叔的度假貼文)都會消失無蹤。這種情況有前例可循。全球第一個大型社群媒體網站的MySpace,意外刪除了2016年以前上傳的照片、影片與音檔。存放有網路部分早期對話的Usenet新聞群組,整批資料已永久下線,從歷史消聲匿跡。今年6月,MTV新聞(MTV News)的檔案被撤下網路,長達20幾年的音樂新聞報導從此消失。

對此,許多檔案管理人員心中的警鈴大作,紛紛在全球各地搶救已停用的網站或岌岌可危的資料庫,力求保住我們的數位生活。有些人則在研發新的儲存格式,希望將資料保存幾百年、甚至幾千年。

這項工程衍生出錯綜複雜的問題。哪些資料比較重要?我們如何又為何決定保留這個、捨棄那個?
此外,未來世代又如何理解我們保存的內容?

「這正是每個歷史學家、考古學家與小說家面臨的考驗。」文化人類學家貝兒(Genevieve Bell)說:「如何解讀保留下來的東西?又如何避免用當代視角來解讀?」

最後的機會

現在的資料量非歷史任何時期能比。Google執行長皮蔡(Sundar Pichai)在今年的Google I/O大會指出,全球每天有60億份照片與影片上傳到Google相簿。WhatsApp平台每分鐘發送的訊息超過4千萬則。

資訊就算爆量,卻比以前更加脆弱。書籍可能因為圖書館意外失火而燒毀,但網路資料更容易永久消失。殷鑑不遠,MySpace意外刪除資料即是一例,但有時是業者蓄意而為的結果。

2009年,雅虎宣布將關閉網頁託管平台GeoCities,數百萬個精心製作的網頁面臨被刪除的命運。GeoCities以業餘的初期網頁美學聞名,內容大多是各種收藏、愛好或粉絲文化,雖然影響力似乎不大,但終究代表了網路初期的一頁,當時恐怕永遠消失。

所幸,在史考特(Jason Scott)的帶領下,有一群檔案管理人員挺身而出,避免了資料灰飛煙滅的下場。
「我們立刻採取行動,本來只是要下載幾個有趣的網站,但在義憤填膺又一團混亂的情況下,突然變成要保存這個早期網路的重要網站。」史考特回憶道。

這個名為「檔案團隊」(Archive Team)的小組迅速動員起來,在GeoCities永久關閉前盡可能下載網頁,能救多少是多少。他和團隊最後成功保存網站大部分內容,在2009年4月到10月間儲存了數百萬個網頁。據他估計,他們下載儲存的資料約1兆位元組(TB),但他說,GeoCities的規模時有變化,高峰期約達9 TB,許多內容可能已經一去不復返。「它有用戶百分之百原創的作品、民間藝術,還能看到確確實實人類寫下的資訊與歷史,在其他地方找不到。」他說。

喜歡戴禮帽、洋溢賽博龐克(cyberpunk)風格的史考特,把搶救瀕臨遺失的網路內容當成己任。「大家愈來愈能理解檔案保存是一種選擇和責任,而不是來來去去的潮流。」他說。

史考特目前任職於網路檔案館(Internet Archive),擔任「自由檔案管理員暨軟體策劃人」。網路檔案館是一家線上資料庫,由網路先驅卡利(Brewster Kahle)於1996年成立,旨在保存可能遺失的資訊。

過去20年來,網路檔案館從網路蒐集了海量資料,包括GeoCities的內容,但它不只保存純數位資料,還收藏了大量經過掃描與搶救的數位化書籍。網路檔案館自成立以來,已收集超過145拍位元組(PB)的資料,包括9,500多萬筆公共媒體檔案,如影片、圖片、文字等,另外還保存了近50萬頁MTV新聞。

透過「時光機」(Wayback Machine)功能,使用者能夠回溯查看特定網站在某個時間點的樣貌,如今已儲存逾8千億個網頁,每天亦進一步捕捉6.5億個新頁面。它還會記錄並儲存全球各地的電視頻道,甚至保存TikTok與YouTube影片。這些資料全都儲存在網路檔案館旗下的多座資料中心。

這是一個永無止境的任務。在哈佛大學圖書館創新實驗室(Library Innovation Lab)擔任主任的庫許曼(Jack Cushman),協助圖書館與技術人員交流學習,他說,人類社會創造出大量新資料,每年刪除的資料量勢必愈來愈多。「我們必須釐清應該保存什麼、捨棄什麼。」他說:「又如何做決定?」

檔案管理人員必須不斷下決定,比方說,應該為後代子孫保存哪些TikTok影片?

丹麥奧胡斯大學(Aarhus University)的網路研究員布魯格(Niels Brügger)指出,未來歷史學家對我們哪些方面會有興趣,其實沒有必要費心揣測。「我們無法想像30年後,歷史學家會想研究今天的哪些面向,因為我們根本沒有頭緒。」他說:「所以不應該設法去預測,或局限未來歷史學家可能提出的問題。」

布魯格說,我們反而應該盡可能保存內容,讓後人自行摸索。「身為歷史學家,我絕對贊成全部保存下來,歷史學家自己會想辦法處理。」他說。

任職於網路檔案館的貝利(Jefferson Bailey),協助為圖書館與機構組織研發存檔軟體,他說,最有可能消失的資訊最優先保存。「資料有的為期短暫、有的有遺失風險、有的採類比或印刷格式尚未數位化,而可能遭到銷毀,這些資料會優先處理。」他說。

民眾可以要求將特定頁面存檔,圖書館與機構組織也會提名,其他就交給網路檔案館的員工處理。來自全球各地的圖書館檔案團隊,會在TikTok與YouTube等開放式社群媒體選擇特定帳號,複製想保存的內容,再與網路檔案館分享。內容可能是每日流行趨勢的即時縮影,也可能是由美國總統等名人發布的推文或影片。

這個過程無法捕捉所有內容,卻能讓人清楚窺見人類在21世紀這幾十年的關注重點。過去進行歷史紀錄時,通常有賴社會權貴的私人信件與財物,但蒐集推特發文的建檔過程勢必比較平等。

「可以一瞥過去30、40年的文化瞬間,非常有趣又多元。」貝利說:「這與100年前的傳統檔案大不相同。」

我們身為公民,也可以幫助未來的歷史學家。布魯格建議大家將個人通訊紀錄「捐贈」給檔案館。「每年請大家捐出一週的電子郵件。」他說:「如果能夠每年取得成千上萬人的一部分電子郵件內容,那就太棒了。」

在史考特的想像中,未來的歷史學家最終會使用人工智慧(AI)查詢這些檔案,進而深入瞭解我們現在的生活方式。「請機器秀出1960年代民眾帶家人到遊樂園玩的畫面,機器會立刻顯示。」他說:「我們至今所做的工作,都是因為深信這個情境有機會成真。」

鑑古知未來

人類知識的消逝未必都像GeoCities一樣戲劇化,有時是漸漸被刪除,回頭再查看才知道資訊已經消失無蹤。「連結失效」(link rot)就是一例,亦即按下網頁的超連結,卻連不到目標網頁,只剩下殘缺的頁面,進也進不去。根據皮尤研究(Pew Research)在2024年5月公布的研究,在2013年還存在的網頁當中,已經有23%無法瀏覽。

若不經常管理維護,消失的不只是網頁連結。與紙張不同的是,我們現在儲存大多數資料的格式需要使用特定軟硬體,但這些工具可能很快就走入歷史。比方說,許多檔案如今無法讀取,是因為讀取資料的應用程式已經不存在,或資料已經毀損。

想要減輕這個問題,可以定期將重要資料轉到最新的媒介,以防讀取程式永久消失。網路檔案館和其他資料庫每個幾年就會更新儲存方式,但對於沒有積極維護的資料,可能再過幾年就無讀取硬體可用。曾經無所不在的儲存媒介如Zip磁碟機或CompactFlash記憶卡,就是明證。

有些研究人員正在設法解決這個問題,讓人讀取以舊有數位格式儲存的資料,即使讀取媒介已經成為過去式。卡內基美隆大學(Carnegie Mellon University)的薩蒂亞納拉亞南(Mahadev Satyanarayanan)主持「橄欖計畫」(Olive project),希望讓人「一鍵」就能使用任何應用程式,不管程式有多老舊。自2012年以來,他的團隊持續打造一個龐大的去中心化網絡,支援「虛擬機器」,亦即老舊或無效運作系統與所有相關軟體的模擬器。

以這種方式保存老舊資料,有助於抵擋資訊工程專家希利斯(Danny Hillis)過去所說的「數位黑暗時代」。這是拿中世紀歐洲的黑暗時代為比喻,因為當時缺乏書面資料,使得後來的歷史學家幾乎無史料可研究。

畢業於麻省理工學院(MIT)的希利斯,曾是平行運算(parallel computing)的先驅,他認為,這個時代歷經科技巨變,無不牽動我們的生活,但未來學者看了恐怕一頭霧水。

「以後的人回頭看這個時代,會說:『那時候出現科技變革,速度迅雷不及掩耳,但很多史料都流失了。』」 他說。

希利斯連同伊諾(Brian Eno)與布蘭德(Stewart Brand)在舊金山共同成立恆今基金會(Long Now Foundation),以吸睛的藝術與科學作品聞名,包括由貝佐斯(Jeff Bezos)資助、命名為「萬年鐘」(Clock of the Long Now)的巨型機械鐘,目前正在德州西部的一座山中建造,能夠精準計時一萬年。基金會還製作了「羅塞塔圓盤」(Rosetta Disc),以鎳為材質,微縮記載全球約1,500個語言。2月時,羅塞塔圓盤的副本搭上奧德修斯號(Odysseus)登陸月球。恆今基金會的營運宗旨之一在於,促進民眾思考如何為後代維護歷史。這麼做不僅有助於歷史學家的工作,根據基金會的使命宣言,還能讓我們成為「更好的祖先」。

身為網路之父之一的瑟夫(Vint Cerf),心有戚戚焉。「隨著年紀漸長,我常常在想如何當個好祖先?」他說。

「瞭解過去有助於預測或解讀現在,乃至於未來可能發生的事。」瑟夫說:「不懂過去而形成社會的致命弱點,這樣的情境不勝枚舉。」

如果不記得,就無法思考。而這個社會記憶過去的方式,是藉著文字記錄,存放在資料庫裡。」卡利也有同感。他說,少了資料庫,「大家會分不清事情的真假。」

卡利當初創辦網路檔案館,是希望所有知識都能免費提供給一般民眾,但他覺得權力已逐漸從資料庫轉向企業,長期下來可能形成資料取得不易的問題。

「如果完全由企業主導,資料會全數消失,」他說:「不只是典型的出版品如雜誌或書籍而已,還包括臉書頁面、推特頁面與個人部落格。這些內容現在都建立在企業平台,未來都有消失的一天。」

哈佛大學的庫許曼說,遺失長期的數位檔案會對社會運作造成深遠影響。他舉例,法律裁決與文書大多以數位形式儲存。少了無法更改的永久紀錄,我們就無法以過去的判斷為借鏡。他的團隊已研發出方法,能讓法院與法律期刊將網頁副本儲存在哈佛大學法學院圖書館(Harvard Law Library),永久存檔,當成法律先例的紀錄。他們另外打造出工具,讓使用者能與這些檔案進行互動,包括瀏覽某網站的歷史版本,或使用自訂的GPT與館藏資料互動。

許多團體也在研發類似的解決方案。美國國會圖書館(US Library of Congress)已針對儲存影音與網頁檔案的標準格式提出建議,以便讓後代能夠讀取。該館請檔案管理思考幾項議題,例如資料是否要包含如何讀取資料,或該格式是否普及(這是考量格式愈普及,愈不會太快過時)。

但庫許曼說,數位檔案終究比實體檔案更難保存。「如果預算用光了,把藏書放在安靜又昏暗的房間,放個10年,資料不會有事。」他說:「可是一個月沒付費給亞馬遜的AWS服務,檔案就再也看不到。」

儲存到天長地久

即使以實體方式儲存數位資料,也無法永遠高枕無憂。數據中心的長期儲存資料技術(用於災難復原等用途),多數採用傳統硬碟或磁帶。硬碟幾年就會耗損,磁帶耐用一點,但還是撐不過10年以上,就會開始故障。

各家企業隨時會備份,所以中短期問題不大。但如果要為後代儲存重要的文化、法律或歷史資料,就必須換個方式思考,新技術需要能夠儲存大量資料,又要經得起時間的考驗,不必經常維護。

常有人宣稱可把DNA當成長期儲存的媒介,所能儲存的資訊量大得驚人,又能歷久不衰。幾十萬年前遺留下來的骨頭碎片,還是讀得到DNA。但目前要把資訊編碼到DNA,成本高昂,過程又慢,而且需要特殊設備才能在以後「讀取」資訊,因此目前還不適合用來長期備份人類知識。

所幸,市場已出現一些有力的替代方案,「矽計畫」(Project Silica)是構想最為先進的其中一個,由英國劍橋大學的微軟研究院(Microsoft Research)推動。布萊克(Richard Black)與研究團隊以玻璃方塊為媒介,正在打造新型的長期儲存技術,資料能夠保存幾百、甚至幾千年。

每個玻璃方塊都是由精準而強效的雷射製成,雷射在玻璃表面下方寫入奈米大小的形變,將資訊位元編碼其中。這些微小缺陷在玻璃中層層堆疊,再以高倍顯微鏡讀取,從中偵測光的折射與極化。布萊克說,機器學習可用來解碼這些位元,每個方塊都有足夠的訓練數據,讓未來的歷史學家必要時重新訓練模型。

我拿著其中一個玻璃方塊,科幻感十足,彷彿是我剛剛把它抽出來,關閉了科幻片《2001太空漫遊》(2001: A Space Odyssey)中的人工智慧電腦。光線照在玻璃方塊的缺陷後發散,呈現淡藍色,那個就是經過編碼的資料。在微軟分享的一段影片中,研究人員把這些玻璃方塊微波、煮沸、放入烤箱烘烤,甚至用高功率磁鐵劃過,都沒有明顯的不良影響。

根據布萊克的設想,這些玻璃方塊可以儲存長期科學檔案達數十年,例如醫療資訊或氣象資料。關鍵是,這項技術可以創造能夠被隔離的檔案(不連接網路),不需要電源或特別維護。檔案可以鎖在倉庫,幾個世紀後還是能夠讀取。「人類從來沒有停止製造顯微鏡。」布萊克說。2019年,華納兄弟將部分老電影存檔到矽玻璃,包括1978年的經典電影《超人》。

布萊克的團隊還為矽計畫研發出一套資料庫儲存系統。在劍橋大學辦公室的一個小房間裡,架上擺滿數千個玻璃方塊。手提包大小的機器人連接在架子,沿著架子迅速移動,偶爾停下,從架子解開,爬上或爬下到另一層,然後又沿著架子離開。機器人到達特定據點時,會停下來,從架上取出一個方塊,大小跟CD一樣。讀取內容後,機器人迅速回到原位。

另一方面,在挪威斯瓦巴群島(Svalbard)的一座廢棄礦坑深處,GitHub正在把一些史上重要軟體(包括Linux、Android和Python的原始碼)儲存在特殊膠捲,研發人員聲稱資料可保存5百年以上。這種膠捲由Piql公司製造,表面塗有顯微鏡等級的鹵化銀晶體,曝光後會永久變黑。高功率光源會產生直徑只有6微米的暗點(dark pixel),將二進位資料編碼其中。日後可用掃描器讀取資料。每個膠捲都有如何存取資料的英文說明,以免將來沒有人能解釋它的運作方式。

除了GitHub的收藏外,這個稱為「北極世界檔案館」(Arctic World Archive)的儲存設施還藏有梵蒂岡與歐洲太空總署(European Space Agency)提供的資料,以及全球各國政府與機構組織的各種藝術品與圖像。比方說,耶魯大學已將一些軟體儲存成Piql資料,包括微軟Office與Adobe。幾百公尺外,座落著斯瓦爾巴全球種子庫(Svalbard Global Seed Vault),為後代保存了這個世界的作物多樣性。每個容器收藏有哪些種子,相關資料也儲存在Piql膠捲裡。

要如何確保這些資料以適當格式儲存,幾百年後仍舊可以解碼讀取,將是一大重點。正如庫許曼所指出,我們現在還在爭論以什麼速度播放卓別林的電影才正確,因為這個資訊當初從來沒有記錄下來。「幾十年後,研究人員想要讀取這些資料時,打造讀取工具的成本有多高?我們出錯的可能性又有多大?」他問道。

追究這些計畫的動機,無非是希望為人類備份,找到一種歷久不衰的媒介,能夠抵擋世界末日、太陽電磁脈衝、文明終結,讓人類能夠重頭來過,知道過去的樣貌。

無心插柳

公元一世紀某個時間,有個名為塞維拉(Claudia Severa)的羅馬婦女住在英格蘭北部的一座堡壘,正在籌劃一場盛大的生日宴會。她請僕人在薄木版寫下邀請函給一名好友,然後華麗地署名。

相信塞維拉絕對想不到,時間過了將近兩千年後,她的邀請函成了文德蘭達書版(Vindolanda Tablets)中最著名的一個,讓我們得以一窺當時羅馬人在英格蘭的日常生活。

歷史總是如此,往往是最奇怪、最隨機的文物流傳下來,成為歷史學家的參考依據。未來也會是如此。儘管檔案管理員、圖書館員與儲存研究人員都在努力想辦法,但還是無法確定哪些資料能夠保存到後世。未來的人類對哪些資料會感到興趣,也可能出乎我們預料。哪一批存檔的電子郵件或TikTok影片,會成為未來歷史學家與人類學家解碼我們這個時代的關鍵?他們又會如何看待我們?

未來的歷史學家在我們的數位殘骸中尋找線索,可能會面臨一連串無解的問題,只能做最好的猜測。

「要問當時擁有數位科技的人是誰。」貝爾說:「他們怎麼供電?誰有權做選擇?資料如何儲存和流通?看資料的人又是誰?」

20年、50年、100年後還存在哪些技術,我們無從得知。Google相簿的雲端儲存或許會被拋棄,淪為埋在地底的舊硬碟垃圾堆。運氣好的話,史考特旗下檔案管理人員後繼有人,事先把資料保存下來。

或許有人將資料下載到某種玻璃盤,存放在某個地方的地下室。

或許有一天,未來的人類學家會找到這個玻璃盤,拍掉灰塵,發現它還能夠讀取。

或許他們會隨機選取一個檔案,開啟某種軟體模擬器,找到10億張在2013年拍攝的照片,然後看到一個胖嘟嘟的小女孩坐在草地上,開心笑著。

下載全文PDF Icon下載全文PDF