『您的瀏覽器不支援JavaScript功能,若網頁功能無法正常使用時,請開啟瀏覽器JavaScript狀態』

跳到主要內容區塊

工業技術研究院

:::

技術名稱: 雲端語音辨識技術

技術簡介

提供伺服器端語音辨識元件與技術,包括大詞彙連續語音辨識與驗證、中文語音辨識轉文字、深度神經網路語音辨識、直覺式語音指令與文法編輯、與STT@ITRI語音辨識應用試作網路服務,廠商可透過上述技術快速且方便的建立口語問答系統、語音轉文字系統、Web-based語音辨識…等服務,並提供使用者透過網路使用相關語音辨識服務。

Abstract

.none

技術規格

*伺服器端 - 大量的運算資源,例如:雙CPU、多核心、高運算頻率 - 大量的記憶體資源,例如:32GB以上 - 具備硬體加速,例如:CPU SSE2/AVX、GPU *使用者端: - 需有可錄音的平台或裝置 - 需具有網路連線能力 *STT@ITRI採用 Restful API 及 JSON 開放格式,提供STT@ITRI API與SDK供開發者介接使用

Technical Specification

.none

技術特色

*大詞彙連續語音辨識與驗證(LVCSR: Large Vocabulary Continuous Speech Recognition) - 可先以最大相似度線性預估(MLLR)技術對聲學模型進行粗略調整,再透過最大事後機率法則(MAP)進行細部微調,搭配類別式語言模型後處理以突破調適資料不足之情況。 - 建立包含31,098詞之電影查詢應用服務,經辨識測試字元正確率達97.78%。 *中文語音辨識轉文字(STT: Speech to Text) - 具備極大詞彙與高維度語言模型存取架構 - 建立word-based rescoring機制取代class-based作法 i.可建立特定領域STT系統  ii.可以generic文字語料建立一通用領域STT系統 *深度神經網路語音辨識(DNN: Deep Neural Network) - 完成ITRI DNN-HMM ASR元件,並實現p-norm DNN聲學相似度計算模組 - 支援硬體加速:CPU SSE2/AVX以及GPU,加速約2X~4X *直覺式語音指令與文法編輯(T2A: Text to Action) - 透過Windows office Excel提供簡單易用的直覺式語音指令與文法編輯工具,可使用指令+變數之兩段式組合設計,可產出一簡易語音對話系統。 - 產出基於Excel之text-to-action editor模組三種介面  i.客製化模板:每種應用均需客製化下拉式action選項  ii.喚醒指令支援:每組指令均由Pilot+Command組成  iii.兩段式+變數:每個group包含多個指令,每組指令分成兩段,每段均可引用變數,群組可改變其屬性,包含是否顯現group名稱,可加快如訂票的對話應用 *STT@ITRI語音辨識應用試作網路服務 - 透過工研院語音轉文字Web服務,您可以客製化您想要辨識的語句辭彙,並在您的應用程式中透過語音的方式,辨識出您所選擇的語句詞彙。並可以進階應用在餐廳查詢、電影查詢與冷氣控制等的內容,為銀髮族、視覺功能障礙者甚至一般普羅大眾,提供更平易近人的人機互動模式。

應用範圍

–人機介面 –車載機、智慧電視、機器人、玩具 –個人助理 –語音查詢 –導覽服務 –知識問答

接受技術者具備基礎建議(設備)

Windows/Linux Server

接受技術者具備基礎建議(專業)

C/C++ programming

技術分類 通訊

聯絡資訊

聯絡人:徐新怡 技術推廣組

電話:+886-3-5914757 或 Email:joycehsu@itri.org.tw

客服專線:+886-800-45-8899

傳真:+886-3-5910257