一文了解人機交互中語音識別技術-傳感技術-電子元件技術網

你的位置：首頁 > 傳感技術 > 正文

一文了解人機交互中語音識別技術

發布時間：2018-03-01 來源：傳感器技術責任編輯：lina

【導讀】zairenjijiaowangzhong，yanyushizuiziranbingqiezuizhijiedefangshizhiyi。suizhejishudejinbu，yuelaiyueduoderenmenyeqiwangjisuanjinenggoujubeiyurenjinxingyanyugoutongdenengli，yinci，yuyinshibiezheyijishuyeyuelaiyueshoudaoguanzhu。youqi，suizheshenduxuexijishuyingyongzaiyuyinshibiejishuzhong，shideyuyinshibiedexingnengdedaolexianzhutisheng，yeshideyuyinshibiejishudepujichengweilexianshi。

語音識別技術

自(zi)動(dong)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)，簡(jian)單(dan)來(lai)說(shuo)其(qi)實(shi)就(jiu)是(shi)利(li)用(yong)計(ji)算(suan)機(ji)將(jiang)語(yu)音(yin)信(xin)號(hao)自(zi)動(dong)轉(zhuan)換(huan)為(wei)文(wen)本(ben)的(de)一(yi)項(xiang)技(ji)術(shu)。這(zhe)項(xiang)技(ji)術(shu)同(tong)時(shi)也(ye)是(shi)機(ji)器(qi)理(li)解(jie)人(ren)類(lei)言(yan)語(yu)的(de)第(di)一(yi)個(ge)也(ye)是(shi)很(hen)重(zhong)要(yao)的(de)一(yi)個(ge)過(guo)程(cheng)。

語音識別是一門交叉學科，所涉及的領域有信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等，甚至還涉及到人的體態語言（如人民在說話時的表情手勢等行為動作可幫助對方理解）。其應用領域也非常廣，例如相對於鍵盤輸入方法的語音輸入係統、可(ke)用(yong)於(yu)工(gong)業(ye)控(kong)製(zhi)的(de)語(yu)音(yin)控(kong)製(zhi)係(xi)統(tong)及(ji)服(fu)務(wu)領(ling)域(yu)的(de)智(zhi)能(neng)對(dui)話(hua)查(zha)詢(xun)係(xi)統(tong)，在(zai)信(xin)息(xi)高(gao)度(du)化(hua)的(de)今(jin)天(tian)，語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)及(ji)其(qi)應(ying)用(yong)已(yi)成(cheng)為(wei)信(xin)息(xi)社(she)會(hui)不(bu)可(ke)或(huo)缺(que)的(de)重(zhong)要(yao)組(zu)成(cheng)部(bu)分(fen)。

語音識別技術的發展曆史

語音識別技術的研究開始二十世紀50年代。1952年，AT&Tbell實驗室的Davis等人成功研製出了世界上第一個能識別十個英文數字發音的實驗係統：Audry係統。

60年代計算機的應用推動了語音識別技術的發展，提出兩大重要研究成果：動態規劃(Dynamic Planning， DP)和線性預測分析(Linear Predict， LP)，其中後者較好的解決了語音信號產生模型的問題，對語音識別技術的發展產生了深遠影響。

70年代，語音識別領域取得突破性進展。線性預測編碼技術(Linear Predict Coding， LPC)被Itakura成功應用於語音識別；Sakoe和Chiba將動態規劃的思想應用到語音識別並提出動態時間規整算法，有效的解決了語音信號的特征提取和不等長語音匹配問題；同時提出了矢量量化（VQ）和隱馬爾可夫模型（HMM）理(li)論(lun)。在(zai)同(tong)一(yi)時(shi)期(qi)，統(tong)計(ji)方(fang)法(fa)開(kai)始(shi)被(bei)用(yong)來(lai)解(jie)決(jue)語(yu)音(yin)識(shi)別(bie)的(de)關(guan)鍵(jian)問(wen)題(ti)，這(zhe)為(wei)接(jie)下(xia)來(lai)的(de)非(fei)特(te)定(ding)人(ren)大(da)詞(ci)彙(hui)量(liang)連(lian)續(xu)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)走(zou)向(xiang)成(cheng)熟(shu)奠(dian)定(ding)了(le)重(zhong)要(yao)的(de)基(ji)礎(chu)。

80年代，連續語音識別成為語音識別的研究重點之一。Meyers和Rabiner研究出多級動態規劃語音識別算法(Level Building，LB)這一連續語音識別算法。80年代另一個重要的發展是概率統計方法成為語音識別研究方法的主流，其顯著特征是HMM模型在語音識別中的成功應用。1988年，美國卡內基－梅隆大學(CMU)用VQ/HMM方法實現了997詞的非特定人連續語音識別係統SPHINX。在這一時期，人工神經網絡在語音識別中也得到成功應用。

進入90年代後，隨著多媒體時代的來臨，迫切要求語音識別係統從實驗走向實用，許多發達國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名公司都為語音識別係統實用化的開發研究投以巨資。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate係統。這些係統具有說話人自適應能力，新用戶不需要對全部詞彙進行訓練便可在使用中不斷提高識別率。

當前，美國在非特定人大詞彙表連續語音隱馬爾可夫模型識別方麵起主導作用，而日本則在大詞彙表連續語音神經網絡識別、模擬人工智能進行語音後處理方麵處於主導地位。

我wo國guo在zai七qi十shi年nian代dai末mo就jiu開kai始shi了le語yu音yin技ji術shu的de研yan究jiu，但dan在zai很hen長chang一yi段duan時shi間jian內nei，都dou處chu於yu緩huan慢man發fa展zhan的de階jie段duan。直zhi到dao八ba十shi年nian代dai後hou期qi，國guo內nei許xu多duo單dan位wei紛fen紛fen投tou入ru到dao這zhe項xiang研yan究jiu工gong作zuo中zhong去qu，其qi中zhong有you中zhong科ke院yuan聲sheng學xue所suo，自zi動dong化hua所suo，清qing華hua大da學xue，四si川chuan大da學xue和he西xi北bei工gong業ye大da學xue等deng科ke研yan機ji構gou和he高gao等deng院yuan校xiao，大da多duo數shu研yan究jiu者zhe致zhi力li於yu語yu音yin識shi別bie的de基ji礎chu理li論lun研yan究jiu工gong作zuo、模型及算法的研究和改進。但由於起步晚、基ji礎chu薄bo弱ruo，計ji算suan機ji水shui平ping不bu發fa達da，導dao致zhi在zai整zheng個ge八ba十shi年nian代dai，我wo國guo在zai語yu音yin識shi別bie研yan究jiu方fang麵mian並bing沒mei有you形xing成cheng自zi己ji的de特te色se，更geng沒mei有you取qu得de顯xian著zhu的de成cheng果guo和he開kai發fa出chu大da型xing性xing能neng優you良liang的de實shi驗yan係xi統tong。

但進入九十年代後，我國語音識別研究的步伐就逐漸緊追國際先進水平了，在“八五”、“九五”國家科技攻關計劃、國家自然科學基金、國家863計劃的支持下，我國在中文語音技術的基礎研究方麵也取得了一係列成果。

在語音合成技術方麵，中國科大訊飛公司已具有國際上最領先的核心技術；中科院聲學所也在長期積累的基礎上，研究開發出頗具特色的產品：在語音識別技術方麵，中科院自動化所具有相當的技術優勢：社科院語言所在漢語言學及實驗語言科學方麵同樣具有深厚的積累。但是，這些成果並沒有得到很好的應用，沒有轉化成產業；相反，中文語音技術在技術、人才、市場等方麵正麵臨著來自國際競爭環境中越來越嚴峻的挑戰和壓力。

語音識別係統的結構

主要包括語音信號的采樣和預處理部分、特征參數提取部分、語音識別核心部分以及語音識別後處理部分，圖中給出了語音識別係統的基本結構。

語yu音yin識shi別bie的de過guo程cheng是shi一yi個ge模mo式shi識shi別bie匹pi配pei的de過guo程cheng。在zai這zhe個ge過guo程cheng中zhong，首shou先xian要yao根gen據ju人ren的de語yu音yin特te點dian建jian立li語yu音yin模mo型xing，對dui輸shu入ru的de語yu音yin信xin號hao進jin行xing分fen析xi，並bing抽chou取qu所suo需xu的de特te征zheng，在zai此ci基ji礎chu上shang建jian立li語yu音yin識shi別bie所suo需xu的de模mo式shi。而er在zai識shi別bie過guo程cheng中zhong要yao根gen據ju語yu音yin識shi別bie的de整zheng體ti模mo型xing，將jiang輸shu入ru的de語yu音yin信xin號hao的de特te征zheng與yu已yi經jing存cun在zai的de語yu音yin模mo式shi進jin行xing比bi較jiao，根gen據ju一yi定ding的de搜sou索suo和he匹pi配pei策ce略lve，找zhao出chu一yi係xi列lie最zui優you的de與yu輸shu入ru的de語yu音yin相xiang匹pi配pei的de模mo式shi。然ran後hou，根gen據ju此ci模mo式shi號hao的de定ding義yi，通tong過guo查zha表biao就jiu可ke以yi給gei出chu計ji算suan機ji的de識shi別bie結jie果guo。

語音識別係統的分類

根據識別的對象不同，語音識別任務大體可分為三類，即孤立詞識別（isolated word recognition)，關鍵詞識別（或稱關鍵詞檢出，keyword spotting)和連續語音識別。

孤立詞識別的任務是識別事先已知的孤立的詞，如“開機”、“關機”等；連續語音識別的任務則是識別任意的連續語音，如一個句子或一段話；連續語音流中的關鍵詞檢測針對的是連續語音，但它並不識別全部文字，而隻是檢測已知的若幹關鍵詞在何處出現，如在一段話中檢測“計算機”、“世界”這兩個詞。

根gen據ju針zhen對dui的de發fa音yin人ren，可ke以yi把ba語yu音yin識shi別bie技ji術shu分fen為wei特te定ding人ren語yu音yin識shi別bie和he非fei特te定ding人ren語yu音yin識shi別bie，前qian者zhe隻zhi能neng識shi別bie一yi個ge或huo幾ji個ge人ren的de語yu音yin，而er後hou者zhe則ze可ke以yi被bei任ren何he人ren使shi用yong。顯xian然ran，非fei特te定ding人ren語yu音yin識shi別bie係xi統tong更geng符fu合he實shi際ji需xu要yao，但dan它ta要yao比bi針zhen對dui特te定ding人ren的de識shi別bie困kun難nan得de多duo。

另外，根據語音設備和通道，可以分為桌麵（PC）語音識別、電話語音識別和嵌入式設備（手機、PDA等）語音識別。不同的采集通道會使人的發音的聲學特性發生變形，因此需要構造各自的識別係統。

目前具有代表性的語音識別技術主要有動態時間規整技術（DTW）、隱馬爾可夫模型（HMM）、矢量量化（VQ）、人工神經網絡（ANN）、支持向量機(SVM)等技術方法。

動態時間規整算法（DynamicTime Warping，DTW）

是shi在zai非fei特te定ding人ren語yu音yin識shi別bie中zhong一yi種zhong簡jian單dan有you效xiao的de方fang法fa，該gai算suan法fa基ji於yu動dong態tai規gui劃hua的de思si想xiang，解jie決jue了le發fa音yin長chang短duan不bu一yi的de模mo板ban匹pi配pei問wen題ti，是shi語yu音yin識shi別bie技ji術shu中zhong出chu現xian較jiao早zao、較常用的一種算法。在應用DTWsuanfajinxingyuyinshibieshi，jiushijiangyijingyuchulihefenzhenguodeyuyinceshixinhaohecankaoyuyinmobanjinxingbijiaoyihuoqutamenzhijiandexiangsidu，anzhaomouzhongjulicedudechuliangmobanjiandexiangsichengdubingxuanzezuijialujing。

隱馬爾可夫模型（HMM）

是語音信號處理中的一種統計模型，是由Markovlianyanbianlaide，suoyitashijiyucanshumoxingdetongjishibiefangfa。youyuqimoshikushitongguofanfuxunlianxingchengdeyuxunlianshuchuxinhaowenhegailvzuidadezuijiamoxingcanshuerbushiyuxianchucunhaodemoshiyangben，qieqishibieguochengzhongyunyongdaishibieyuyinxulieyuHMM參數之間的似然概率達到最大值所對應的最佳狀態序列作為識別輸出，因此是較理想的語音識別模型。

矢量量化（VectorQuantization）

是一種重要的信號壓縮方法。與HMM相比，矢量量化主要適用於小詞彙量、孤gu立li詞ci的de語yu音yin識shi別bie中zhong。其qi過guo程cheng是shi將jiang若ruo幹gan個ge語yu音yin信xin號hao波bo形xing或huo特te征zheng參can數shu的de標biao量liang數shu據ju組zu成cheng一yi個ge矢shi量liang在zai多duo維wei空kong間jian進jin行xing整zheng體ti量liang化hua。把ba矢shi量liang空kong間jian分fen成cheng若ruo幹gan個ge小xiao區qu域yu，每mei個ge小xiao區qu域yu尋xun找zhao一yi個ge代dai表biao矢shi量liang，量liang化hua時shi落luo入ru小xiao區qu域yu的de矢shi量liang就jiu用yong這zhe個ge代dai表biao矢shi量liang代dai替ti。矢shi量liang量liang化hua器qi的de設she計ji就jiu是shi從cong大da量liang信xin號hao樣yang本ben中zhong訓xun練lian出chu好hao的de碼ma書shu，從cong實shi際ji效xiao果guo出chu發fa尋xun找zhao到dao好hao的de失shi真zhen測ce度du定ding義yi公gong式shi，設she計ji出chu最zui佳jia的de矢shi量liang量liang化hua係xi統tong，用yong最zui少shao的de搜sou索suo和he計ji算suan失shi真zhen的de運yun算suan量liang實shi現xian最zui大da可ke能neng的de平ping均jun信xin噪zao比bi。

在實際的應用過程中，人們還研究了多種降低複雜度的方法，包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。

人工神經網絡（ANN）

是20世紀80年代末期提出的一種新的語音識別方法。其本質上是一個自適應非線性動力學係統，模擬了人類神經活動的原理，具有自適應性、並行性、魯棒性、容錯性和學習特性，其強大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機製的工程模型，它與HMM正好相反，其分類決策能力和對不確定信息的描述能力得到舉世公認，但它對動態時間信號的描述能力尚不盡如人意，通常MLP分fen類lei器qi隻zhi能neng解jie決jue靜jing態tai模mo式shi分fen類lei問wen題ti，並bing不bu涉she及ji時shi間jian序xu列lie的de處chu理li。盡jin管guan學xue者zhe們men提ti出chu了le許xu多duo含han反fan饋kui的de結jie構gou，但dan它ta們men仍reng不bu足zu以yi刻ke畫hua諸zhu如ru語yu音yin信xin號hao這zhe種zhong時shi間jian序xu列lie的de動dong態tai特te性xing。由you於yuANN不能很好地描述語音信號的時間動態特性，所以常把ANN與傳統識別方法結合，分別利用各自優點來進行語音識別而克服HMM和ANN各自的缺點。

近jin年nian來lai結jie合he神shen經jing網wang絡luo和he隱yin含han馬ma爾er可ke夫fu模mo型xing的de識shi別bie算suan法fa研yan究jiu取qu得de了le顯xian著zhu進jin展zhan，其qi識shi別bie率lv已yi經jing接jie近jin隱yin含han馬ma爾er可ke夫fu模mo型xing的de識shi別bie係xi統tong，進jin一yi步bu提ti高gao了le語yu音yin識shi別bie的de魯lu棒bang性xing和he準zhun確que率lv。

支持向量機（Supportvector machine）

是應用統計學理論的一種新的學習機模型，采用結構風險最小化原理（Structural Risk Minimization，SRM），有效克服了傳統經驗風險最小化方法的缺點。兼顧訓練誤差和泛化能力，在解決小樣本、非線性及高維模式識別方麵有許多優越的性能，已經被廣泛地應用到模式識別領域。

語音識別技術的難點及對策

語音識別技術的發展，達不到實用要求的，主要表現在以下方麵：

(1) 自適應問題。

語音識別係統的自適應性差體現在對環境條件的依賴性強。現有倒譜歸一化技術、相對譜(RASTA)技術、LINLOG RASTA 技術等自適應訓練方法。

(2)噪聲問題。

語音識別係統在噪聲環境下使用，講話人產生情緒或心裏上的變化，導致發音失真、發音速度和音調改變，產生Lombard/Loud 效應。常用的抑製噪聲的方法有譜減法、環境規正技術、不修正語音信號而是修正識別器模型使之適合噪聲、建立噪聲模型。

(3)語音識別基元的選取問題。

一般地，欲識別的詞彙量越多，所用基元應越小越好。

(4 )端點檢測。

語yu音yin信xin號hao的de端duan點dian檢jian測ce是shi語yu音yin識shi別bie的de關guan鍵jian第di一yi步bu。研yan究jiu表biao明ming，即ji使shi在zai安an靜jing的de環huan境jing下xia，語yu音yin識shi別bie係xi統tong一yi半ban以yi上shang的de識shi別bie錯cuo誤wu來lai自zi端duan點dian檢jian測ce器qi。提ti高gao端duan點dian檢jian測ce技ji術shu的de關guan鍵jian在zai於yu尋xun找zhao穩wen定ding的de語yu音yin參can數shu 。

(5 )其它如識別速度問題、拒識問題以及關鍵詞檢測技術(即從連續語音中去除 “啊”、“唉”的語氣助詞，獲得真正待識別的語音部分 )、對用戶的錯誤輸入不能正確響應等問題。

語音識別的應用

語音識別可以應用的領域大致分為大五類：

辦公室或商務係統。典型的應用包括：填寫數據表格、數據庫管理和控製、鍵盤功能增強等等。

製造業。

在質量控製中，語音識別係統可以為製造過程提供一種“不用手”、“不用眼”的檢控（部件檢查）。

電信。

相當廣泛的一類應用在撥號電話係統上都是可行的，包括話務員協助服務的自動化、國際國內遠程電子商務、語音呼叫分配、語音撥號、分類訂貨。

醫療。

這方麵的主要應用是由聲音來生成和編輯專業的醫療報告。

其他。

包括由語音控製和操作的遊戲和玩具、幫助殘疾人的語音識別係統、車輛行駛中一些非關鍵功能的語音控製，如車載交通路況控製係統、音響係統。

隨著移動互聯網技術的不斷發展，尤其是移動終端的小型化、多樣化變化趨勢，語音識別成為區別於鍵盤、觸屏的人機交互手段之一。隨著語音識別算法模型、自(zi)適(shi)應(ying)性(xing)的(de)加(jia)強(qiang)，相(xiang)信(xin)在(zai)未(wei)來(lai)很(hen)長(chang)一(yi)段(duan)時(shi)間(jian)內(nei)，語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)的(de)應(ying)用(yong)將(jiang)更(geng)加(jia)廣(guang)泛(fan)與(yu)深(shen)入(ru)，更(geng)多(duo)豐(feng)富(fu)的(de)移(yi)動(dong)終(zhong)端(duan)語(yu)音(yin)識(shi)別(bie)產(chan)品(pin)將(jiang)步(bu)入(ru)人(ren)們(men)的(de)日(ri)常(chang)生(sheng)活(huo)。

推薦閱讀：
如何克服功率計等測量儀器測試的不穩定？
如何準確識別未知多節點CAN總線網絡?
全麵概括汽車傳感器知識
靈感來源於電鰻的柔性電池:未來或許能為起搏器供電
VR並沒有沒落去年它在這些方麵改變了世界

要采購鍵盤麼，點這裏了解一下價格!

上一篇：如何克服功率計等測量儀器測試的不穩定？

下一篇：射頻連接器是啥？它有啥作用和特點？

特別推薦

技術文章更多>>

技術白皮書下載更多>>

熱門搜索

友情鏈接(QQ：317243736)

我愛方案網 ICGOO元器件商城創芯在線檢測芯片查詢天天IC網電子產品世界無線通信模塊控製工程網電子開發網電子技術應用與非網世紀電源網 21ic電子技術資料下載電源網電子發燒友網中電網中國工業電器網連接器礦山設備網工博士智慧農業工業路由器天工網乾坤芯電子元器件采購網亞馬遜KOL 聚合物鋰電池工業自動化設備企業查詢工業路由器元器件商城連接器 USB中文網今日招標網塑料機械網農業機械中國IT產經新聞網高低溫試驗箱

關閉

關閉