家庭監護機器人有突破!語音識別係統“箭在弦上”
發布時間:2014-12-06 責任編輯:echolady
【導讀】本(ben)文(wen)主(zhu)要(yao)實(shi)現(xian)了(le)家(jia)庭(ting)監(jian)護(hu)機(ji)器(qi)人(ren)在(zai)語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)的(de)重(zhong)大(da)突(tu)破(po)。本(ben)次(ci)設(she)計(ji)的(de)係(xi)統(tong)不(bu)僅(jin)具(ju)有(you)語(yu)音(yin)識(shi)別(bie)功(gong)能(neng),而(er)且(qie)還(hai)具(ju)備(bei)較(jiao)高(gao)的(de)識(shi)別(bie)率(lv),響(xiang)應(ying)速(su)度(du)也(ye)明(ming)顯(xian)加(jia)快(kuai)。本(ben)文(wen)將(jiang)為(wei)大(da)家(jia)闡(chan)述(shu)語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)在(zai)家(jia)庭(ting)機(ji)器(qi)人(ren)中(zhong)的(de)應(ying)用(yong)。
yuyinshirenleizuichangyongdejiaoliufangshi,yeshirenleihejisuanjijiaoliuzuikewangdefangshi。yinciyongyuyintongjisuanjijiaoliuyechengweilezuijinyanjiuderedian,jisuanjiduiyuyindelijieshijisuanjikexuezhongdeyigeyinrenrenshengde、富有挑戰性的課題。
進入90年代,隨著多媒體時代的來臨,迫切要求語音識別係統從實驗室走向實用。許多發達國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名公司都為語音識別係統的實用化開發研究投以巨資。IBM公司於1997年開發出漢語ViaVoice語音識別係統,次年又開發出可以識別上海話、廣東話和四川話等地方口音的語音識別係統ViaVoice''98.目前市場上已經出現了語音識別電話、語音識別記事本等產品,如美國VPTC公司的Voice Organizer和法國的Parrot等。
我國語音識別研究工作開始的較晚,但近年來發展得很快,一直緊跟國際水平,國家也很重視,並把大詞彙量語音識別的研究列入"8 63"計劃,由中科院聲學所、自動化所、清華大學電子工程係及北京大學等單位研究開發,取得了高水平的科研成果,如中科院自動化所研製的非特定人、連續語音聽寫係統和漢語語音人機對話係統,其字準確率或係統響應率可達90%以上。鑒於中國未來龐大的市場,國外也非常重視漢語語音識別的研究。美國、新加坡等地聚集了一批來自大陸、台灣、香港等地的學者,研究成果已達到相當高水平。
1 係統設計
文中是家庭監護機器人項目中的語音識別係統設計部分,設計目的是設計出一種可以識別語音的、協助監護家庭行動不方便人員的機器人。為實現該語音識別係統,設計了語音識別係統總體結構框圖,如圖1所示。

圖1 係統總體結構框圖
1.1 硬件設計文中所研究和設計的功能,都是應用在移動機器人上的。因而係統的研究設計需要考慮到體積小、省電、便於移動的特性,並需具有便於家庭用戶操作的友好顯示界麵。對於語音識別部分,需要用到用於語音識別算法處理的處理器、語音采集電路和語音輸出電路,如圖2所示。其中語音識別算法運算的處理器主要負責算法的運算處理,相當於機器人的大腦;語音采集電路負責采集外部的聲音信號,相當於機器人的耳朵;語音輸出電路負責輸出話語聲音,相當於機器人的嘴巴。

圖2 係統硬件結構圖
1)語音識別算法處理器選擇
根據係統設計功能的要求,目前常用的語音識別芯片種類一般有:單片機(MCU)、DSP和SoC(System on Circuit)。考慮到普通單片機(MCU)資源的緊缺及運行速度較慢的缺點,因而在本係統設計將不考慮使用單片機(MCU)作為語音識別的處理器。DSP包含用作數字信號處理的專用部件,運算能力強、精度高,但目前DSP的(de)價(jia)格(ge)比(bi)較(jiao)高(gao),同(tong)時(shi)考(kao)慮(lv)到(dao)本(ben)係(xi)統(tong)的(de)特(te)性(xing),需(xu)要(yao)選(xuan)擇(ze)一(yi)種(zhong)既(ji)有(you)較(jiao)強(qiang)的(de)運(yun)算(suan)能(neng)力(li),合(he)適(shi)於(yu)語(yu)音(yin)識(shi)別(bie)的(de)功(gong)能(neng),並(bing)且(qie)能(neng)實(shi)現(xian)較(jiao)好(hao)的(de)用(yong)戶(hu)操(cao)作(zuo)界(jie)麵(mian),並(bing)帶(dai)有(you)文(wen)件(jian)係(xi)統(tong)(用於識別地圖)的功能,因而選擇DSP並不是明智之舉。目前Texas Instruments公司新推出的一款芯片OMAP3530,它具有雙內核ARM CortexTM-A8的內核和TMS320C64+TM DSP內核,屬於高性能的OMAP35x架構係列產品,滿足了係統設計的各種功能特性要求。
2)語音編解碼芯片選擇
機器人選擇一款合適的語音處理芯片是非常重要的。考慮到係統中用到了各種電源,並需要對電源進行管理,因此選擇TI公司配套的TPS 65930芯片來作為係統語音識別部分的音頻編解碼處理功能的硬件平台是非常合適的。該芯片是一個集成了電源管理、ADC、嵌入式電源控製(EPC)、全功能的音頻編解碼器於一體的芯片,滿足了係統所有電源管理和音頻編解碼的需要,為設計的PCB板節省了空間,同時減少了多電源硬件設計的負責布線煩惱。
3)電路設計
本文的設計是用在移動機器人上的,因而需要語音的輸入、識shi別bie處chu理li及ji語yu音yin輸shu出chu的de功gong能neng。對dui於yu語yu音yin的de輸shu入ru采cai集ji,本ben文wen使shi用yong聲sheng音yin傳chuan感gan器qi麥mai克ke風feng及ji外wai圍wei電dian路lu來lai實shi現xian。對dui於yu語yu音yin輸shu出chu部bu分fen,使shi用yong功gong率lv放fang大da器qi結jie合he喇la叭ba來lai使shi用yong。設she計ji語yu音yin部bu分fen原yuan理li圖tu如ru圖tu3所示。

圖3 語音輸入原理圖
1.2 軟件設計
HTK(Hidden Markov Model Toolkit)是一套專門的建立和處理隱馬可夫模型(HMMs)的實驗工具包,由英國劍橋大學工程係(Cambridge University Engineering Department,CUED)開發的,主要應用於語音識別領域,也可以應用於語音合成、字符識別和DNA排序等研究領域。HTK經過劍橋大學、Entropic公司及Microsoft公司的不斷增強和改進,使其在語音識別領域處於世界領先水平。
基於HTK的語言識別時,識別結果適用隻能顯示在DOS或終端上,而且不利於將結果保存、移植或者二次開發利用。在本語音識別係統中使用了HTK接口工具ATK(AnApplication Toolkit for HTK)。ATK是由英國劍橋大學開發的開源語音識別工具,是對HTK的C++多線程封裝,跟HTK一樣,它支持Linux和Windows,它包括HTK(HTKLib)、AHTK、AGram、ANGram、ADict、AHMMs、AResource、ARMan、ARec、ACode、ASour ce、ATee、AComponent、ABuffer、APacket、Asyn、FLite(SYNLib)、ALog模塊部件。
基於ATK的語音識別軟件應用係統的由語音信號采集模塊、基於DMA的雙向高速RAM存取模塊、ATK語音識別模塊、係統管理模塊、語音輸出模塊等模塊組成,如圖4所示。

圖4 係統軟件設計結構圖
在軟件設計中,係統管理模塊主要負責係統的總體管理調度,是應用係統的調度中心;語音信號采集模塊主要負責控製數據采集芯片TPS 65930;基於DMA的雙向RAM存取模塊主要負責實現DMA驅動及雙向RAM的讀寫存取,使用了通道1來實現高速地把語音信號采集到的數據存儲到RAM上,並使用通道2實現高速地把RAM的數據取出來,用於語音的識別;語音輸出模塊主要負責把相應的音頻數據送到TPS65930,並控製TPS6 5930對接收到的音頻解碼輸出到功放電路,實現語音輸出的功能。軟件的設計流程圖如圖5所示。

圖5 軟件設計流程
2 語音識別係統實驗及結果
文中設計的語音識別係統如圖6所示。在實驗中總共進行了3輪話語測試,每輪300句話語測試,其中150句為家庭監護機器人需要識別的話語,150句話語為機器人不予置理的無關話語。本係統隻設置10個需要識別的話語,由15名學生分別讀音進行測試。同時對無關話語也是由該15名學生,每人10句分別隨機讀音測試。從顯示結果可以看出,第1輪中,先測試的150句無關話語中,能正確識別出無關話語數為150句,識別出無關話語率為100%,但對需識別的話語中,正確識別出148句,2句識別出錯,識別率為98.67%;在第2輪中,同樣先測試的150句無關話語中,能正確識別出無關話語數為150句,識別出為無關話語率為100%,但對需識別的話語中,正確識別出142句,8句識別出錯,識別率為94.67%;在第3輪中,同樣先測試的150句無關話語中,能正確識別出無關話語數為150句,識別出無關話語率為100%,但對需識別的話語中,正確識別出146句,識別率為97.33%.在3lunceshizhong,xitongdounengshishixiangyingsuoyouyuju,weichuxianloujuxianxiang。bingqiezaishiyanceshideguochengzhong,xitongdexiangyingsududoufeichangkuai,ganguanshangmeiyoushijianyanchi,yuzhenrenjiaoliusuduxiangdang。
從實驗測試結果可看出,對於識別10個需要識別的話語的識別率高達94.67%以上,具有較高的識別率,因而該語音識別係統較好達到了家庭監護機器人使用的要求。
相關閱讀:
專家親授:基於DSP原理的漢子語音識別係統的實現
技術達人:ARM的非特定人語音識別係統的設計
智能手機的超性能語音識別技術
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索






