『您的瀏覽器不支援JavaScript功能,若網頁功能無法正常使用時,請開啟瀏覽器JavaScript狀態』

跳到主要內容區塊 跳到 Cookie 設定

工業技術研究院

:::

技術名稱: 語音合成AI技術

技術簡介

個人成長過程常與特定親屬或熟悉人物的互動緊密相關,而聲音、影像與文字等媒介則是這類記憶的重要承載形式。某些聲音、照片,會在多年後仍能瞬間喚起特定年代的生活片段。這些記憶之所以強烈,並不只因為內容本身,而是因為它承載了特定說話者的音色與情感表達。然而,這些素材在現實中容易因時間推移而不完整,影像可能散佚或解析度不足,錄音可能缺失、受噪聲干擾或品質衰退,文字紀錄亦難以完整保存說話者的聲音特徵與情緒表達。當原始紀錄不足時,記憶的再現通常只能依賴主觀想像,難以形成一致且可重複呈現的多媒體敘事素材。 近年生成式 AI 的發展,以可控方式重建或補足記憶線索,讓「記憶的再現」出現新的可能:透過影像生成模型可在文字描述、參考影像或風格條件的引導下,生成符合特定年代氛圍或敘事需求的視覺內容;透過語音轉換(Voice Conversion, VC),則能在保留語句內容的前提下,重建更貼近特定說話者音色與語氣的聲音表達。對於以懷舊與個人成長為主題的敘事創作而言,影像與聲音不只是呈現素材,更是一種能夠「把記憶具象化」的媒介。

Abstract

Personal growth is tied to relatives and memories stored in audio, video, and text. These media capture a speaker’s tone and emotion, but they deteriorate over time—images blur and recordings fade. Without original records, reconstructing memories relies on subjective imagination. Generative AI now enables controllable memory "reconstruction." Image models recreate era-specific visuals, while voice conversion (VC) restores a speaker’s unique tone. For nostalgia-driven storytelling, these AI tools serve as essential mediums to "concretize memories."

技術規格

■ 影音生成模型(影格尺寸1024×768最後合成 MP4)

Technical Specification

■ Audio/Video Generation Model (Image Size: 1024×768, and finally output MP4

技術特色

 使用LoRA技術進行生成式影音微調  使用超解析技術,將生成後的影像,不失真調整到8K解析度  提供UIUX介面快速產生結果

應用範圍

影視音產業、廣告業、智慧看板、高齡照護產業

接受技術者具備基礎建議(設備)

CPU: 12代Intel Core i5以上CPU處理器 GPU: 輝達RTX 5060 Ti 8G以上顯示卡 RAM: 建議32GB RAM記憶體 OS: Windows 10以上版本

接受技術者具備基礎建議(專業)

電機系、資訊系、資管系大學畢業懂軟體基本操作之人員

技術分類 S-人機互動技術

聯絡資訊

聯絡人:沈志聰 文化與運動科技服務組

電話:+886-3-5915229 或 Email:ct.shen@itri.org.tw

客服專線:+886-800-45-8899

傳真:+886-3-5915229

舊工業技術研究院圖示