技術簡介
文字轉語音合成技術(Text-to-Speech)乃是透過電腦處理將任意文字輸入轉換成語音輪出。使用者不需要針對特定文字內容預錄音,只要將文字內容輸入電腦,電腦即會自動處理包括日期、時間、電話、金額、項次等數字之正確讀法,以及處理常見特殊符號、英文縮寫等之正確讀法。然後採用具有中文斷詞容錯能力之強健式韻律合成,生成音質清晰無衰減以及具有揚頓挫之韻律變化的合成語音,提供近似真人的發音。
Abstract
A text-to-speech (TTS) system converts normal language text into speech; other systems render symbolic linguistic representations like phonetic transcriptions into speech
技術規格
‧基於模型之高音質文字轉語音技術
- Memory:Storage約3MB(含一個聲音庫)、Runtime約3MB
- Speed: PDA Phone 400MHz,Real-time Factor約 0.5
- 聲音庫
中英統合台灣腔中文:男聲(Bruce)、女聲(Joddess、Theresa)
中英切換:男聲(Bruce)、女聲(Theresa、Katherine、Connie)、小女孩(Angela)
大陸腔中文:男聲、女聲
台語:女聲(阿娟)
英語:男聲(Bruce)、女聲(Alice)
‧
*支援平台
- Windows
- iOS
- Android
Technical Specification
none
技術特色
*高品質自然語音合成
uTTS乃基於語音統計模型重建語音波形之高音質文字轉語音技術,沒有拼接式語音合成系統在語音合成單元間的不連貫現象。整句合成語音具有抑揚頓挫之韻律,極為自然流暢。由於採用參數合成的方法,uTTS可以非常方便地對各項影響合成效果的參數,如音量、音高、語速等眾多參數進行調節,使得語音合成更加容易進行韻律調整之控制。
*智慧文本分析
uTTS擁有自然語言理解能力,能自動進行文本分析和韻律描述,並具專利之中文斷詞容錯能力之強健式韻律合成。高準確度的智慧文本分析與預處理,使語音合成即使在一些語言分析處理的困難點,如破音字、特殊符號、日期、時間、電話、金額、項次等等,也能得到高度準確的合成結果。
*多音色風格語音的選擇與建構
本合成器可以合成自然而富含韻律節奏的語音,並提供多音色風格的選擇,例如成熟穩重的男聲,及溫柔甜美的女聲。由於語音統計模型只需1至2小時之錄音語料,即可經過自動訓練步驟得到,和以往相比可大幅度縮短構建高品質音庫的時間。因此我們可配合使用者之需要,快速產生出適合的音色,以幫助開發者更快速地回應客戶語音應用的新需求,以及縮短開發應用的過程,此實為本系統之一大特色。
*韻律強化及特效合成
更提供韻律強化及特效合成之文字轉語音合成技術,可在原有的聲音下,進行說話韻律調整,可調整出更多不同的聲音。
*ITRI TTS@Web文字轉語音web服務
可選擇不同語者聲音,並進行說話韻律調整(音調高低、速度快慢、音量大小),同時可與網頁結合,將網頁的內容即時合成自然流暢的合成語音,且不需安裝元件,直接就可使用。
應用範圍
可應用於眼睛不方便使用、視力不佳、顯示螢幕或設備受限制、聽語學習、發聲障礙和添聲增色之各類情境中,所衍生的相關終端設備產品,如:導航機、車機、有聲書、視障輔具、電話語音、小型行動裝置、機器人、廣播設備等。
接受技術者具備基礎建議(設備)
PC、Server、iOS and Android/Linux-based devices
接受技術者具備基礎建議(專業)
熟悉Visual C++程式語言
熟悉Windows中呼叫DLL的方法
聯絡資訊
聯絡人:劉晏慈 技術推廣組
電話:+886-3-5917143 或 Email:joanne.liu@itri.org.tw
客服專線:+886-800-45-8899
傳真:+886-3-5910257