熟透語音識別技術,軍事鬥爭領域你就是"王"
發布時間:2015-01-14 來源:禹琳琳 海軍駐北京地區航空軍事代表室 責任編輯:sherryyu
【導讀】yiweihangkongzhuanjiazhuanmenweidajiajiangjieleyuyinshibiejishudejibenyuanlijiyingyong,xiwangzaiyuyinshibiejishushangyousuochengjiuderenkeyixiangxideyandu。tongshizuoweihangkongjunshilingyuyuyinshibiejishuyehenzhongyao,ruruonengjianggaijishushuliandeyingyongdaojunshishang,woxiangnaguojiadejunshililiangkendingburongxiaoqu。
語(yu)音(yin)識(shi)別(bie)作(zuo)為(wei)信(xin)息(xi)技(ji)術(shu)中(zhong)一(yi)種(zhong)人(ren)機(ji)接(jie)口(kou)的(de)關(guan)鍵(jian)技(ji)術(shu),具(ju)有(you)重(zhong)要(yao)的(de)研(yan)究(jiu)意(yi)義(yi)和(he)廣(guang)泛(fan)的(de)應(ying)用(yong)價(jia)值(zhi)。介(jie)紹(shao)了(le)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)發(fa)展(zhan)的(de)曆(li)程(cheng),具(ju)體(ti)闡(chan)述(shu)了(le)語(yu)音(yin)識(shi)別(bie)概(gai)念(nian)、基本原理、聲學建模方法等基本知識,並對語音識別技術在各領域的應用作了簡要介紹。
語言是人類相互交流最常用、最有效、zuizhongyaohezuifangbiandetongxinxingshi,yuyinshiyuyandeshengxuebiaoxian,yujiqijinxingyuyinjiaoliushirenleiyizhiyilaidemengxiang。suizhejisuanjijishudefeisufazhan,yuyinshibiejishuyequdetupoxingdechengjiu,renyujiqiyongziranyuyanjinxingduihuademengxiangzhubujiejinshixian。yuyinshibiejishudeyingyongfanweijiweiguangfan,bujinshejidaorichangshenghuodefangfangmianmian,zaijunshilingyuyefahuizhejiqizhongyaodezuoyong。tashixinxishehuichaozhezhinenghuahezidonghuafazhandeguanjianjishu,shirenmenduixinxidechulihehuoqugengjiabianjie,congertigaorenmendegongzuoxiaolv。
1 語音識別技術的發展
語音識別技術起始於20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。
20世紀60年(nian)代(dai),語(yu)音(yin)識(shi)別(bie)研(yan)究(jiu)取(qu)得(de)實(shi)質(zhi)性(xing)進(jin)展(zhan)。線(xian)性(xing)預(yu)測(ce)分(fen)析(xi)和(he)動(dong)態(tai)規(gui)劃(hua)的(de)提(ti)出(chu)較(jiao)好(hao)地(di)解(jie)決(jue)了(le)語(yu)音(yin)信(xin)號(hao)模(mo)型(xing)的(de)產(chan)生(sheng)和(he)語(yu)音(yin)信(xin)號(hao)不(bu)等(deng)長(chang)兩(liang)個(ge)問(wen)題(ti),並(bing)通(tong)過(guo)語(yu)音(yin)信(xin)號(hao)的(de)線(xian)性(xing)預(yu)測(ce)編(bian)碼(ma),有(you)效(xiao)地(di)解(jie)決(jue)了(le)語(yu)音(yin)信(xin)號(hao)的(de)特(te)征(zheng)提(ti)取(qu)。
2O世紀70年代,語音識別技術取得突破性進展。基於動態規劃的動態時間規整(Dynamic Time Warping,DTW)技術基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論。
20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞彙量、非特定人、連續語音的識別,識別算法也從傳統的基於標準模板匹配的方法轉向基於統計模型的方法。在聲學模型方麵,由於HMM能夠很好的描述語音時變性和平穩性,開始被廣泛應用於大詞彙量連續語音識別(Large Vocabulary Continous Speech Recognition,LVCSR)的聲學建模;在語言模型方麵,以N元文法為代表的統計語言模型開始廣泛應用於語音識別係統 。在這一階段,基於HMM/VQ、HMM/高斯混合模型、HMM/人工神經網絡的語音建模方法開始廣泛應用於LVCSR係統,語音識別技術取得新突破。
20世紀90年代以後,伴隨著語音識別係統走向實用化,語音識別在細化模型的設計、參數提取和優化、係統的自適應方麵取得較大進展 。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題 。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便於實現語音識別技術的產品化。
2 語音識別基礎
2.1 語音識別概念
語(yu)音(yin)識(shi)別(bie)是(shi)將(jiang)人(ren)類(lei)的(de)聲(sheng)音(yin)信(xin)號(hao)轉(zhuan)化(hua)為(wei)文(wen)字(zi)或(huo)者(zhe)指(zhi)令(ling)的(de)過(guo)程(cheng)。語(yu)音(yin)識(shi)別(bie)以(yi)語(yu)音(yin)為(wei)研(yan)究(jiu)對(dui)象(xiang),它(ta)是(shi)語(yu)音(yin)信(xin)號(hao)處(chu)理(li)的(de)一(yi)個(ge)重(zhong)要(yao)研(yan)究(jiu)方(fang)向(xiang),是(shi)模(mo)式(shi)識(shi)別(bie)的(de)一(yi)個(ge)分(fen)支(zhi)。語(yu)音(yin)識(shi)別(bie)的(de)研(yan)究(jiu)涉(she)及(ji)微(wei)機(ji)技(ji)術(shu)、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域。
根據在不同限製條件下的研究任務,產生了不同的研究領域。這些領域包括:根據對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續語音識別係統;根據對說話人的依賴程度,可分為特定人和非特定人語音識別係統;根據詞彙量的大小,可分為小詞彙量、中等詞彙量、大詞彙量以及無限詞彙量語音識別係統。
2.2 語音識別基本原理
從(cong)語(yu)音(yin)識(shi)別(bie)模(mo)型(xing)的(de)角(jiao)度(du)講(jiang),主(zhu)流(liu)的(de)語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)理(li)論(lun)是(shi)建(jian)立(li)在(zai)統(tong)計(ji)模(mo)式(shi)識(shi)別(bie)基(ji)礎(chu)之(zhi)上(shang)的(de)。語(yu)音(yin)識(shi)別(bie)的(de)目(mu)標(biao)是(shi)利(li)用(yong)語(yu)音(yin)學(xue)與(yu)語(yu)言(yan)學(xue)信(xin)息(xi),把(ba)輸(shu)入(ru)的(de)語(yu)音(yin)特(te)征(zheng)向(xiang)量(liang)序(xu)列(lie)X=x1,x2,……,xT轉化成詞序列W=w1,w2,……,wN並輸出。基於最大後驗概率的語音識別模型如下式所示:

其中,P(X|W)是特征矢量序列X在給定W條件下的條件概率,由聲學模型決定。P(W)是W獨立於語音特征矢量的先驗概率,由語言模型決定。由於將概率取對數不影響W的選取,第四個等式成立。logP(X|W)與logP(W)分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。A是平衡聲學模型與語言模型的權重。從語音識別係統構成的角度講,一個完整的語音識別係統包括特征提取、聲學模型、語言模型、搜sou索suo算suan法fa等deng模mo塊kuai。語yu音yin識shi別bie係xi統tong本ben質zhi上shang是shi一yi種zhong多duo維wei模mo式shi識shi別bie係xi統tong,對dui於yu不bu同tong的de語yu音yin識shi別bie係xi統tong,人ren們men所suo采cai用yong的de具ju體ti識shi別bie方fang法fa及ji技ji術shu不bu同tong,但dan其qi基ji本ben原yuan理li都dou是shi相xiang同tong的de,即ji將jiang采cai集ji到dao的de語yu音yin信xin號hao送song到dao特te征zheng提ti取qu模mo塊kuai處chu理li,將jiang所suo得de到dao的de語yu音yin特te征zheng參can數shu送song入ru模mo型xing庫ku模mo塊kuai,由you聲sheng音yin模mo式shi匹pi配pei模mo塊kuai根gen據ju模mo型xing庫ku對dui該gai段duan語yu音yin進jin行xing識shi別bie,最zui後hou得de出chu識shi別bie結jie果guo 。
[page]
語音識別係統基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控製等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析後提取出語音特征參數,形成特征矢量序列。語音識別係統常用的特征參數有短時平均幅度、短時平均能量、線性預測編碼係數、短時頻譜等。特征提取和選擇是構建係統的關鍵,對識別效果極為重要。

圖1 語音識別基本原理框圖
由you於yu語yu音yin信xin號hao本ben質zhi上shang屬shu於yu非fei平ping穩wen信xin號hao,目mu前qian對dui語yu音yin信xin號hao的de分fen析xi是shi建jian立li在zai短duan時shi平ping穩wen性xing假jia設she之zhi上shang的de。在zai對dui語yu音yin信xin號hao作zuo短duan時shi平ping穩wen假jia設she後hou,通tong過guo對dui語yu音yin信xin號hao進jin行xing加jia窗chuang,實shi現xian短duan時shi語yu音yin片pian段duan上shang的de特te征zheng提ti取qu。這zhe些xie短duan時shi片pian段duan被bei稱cheng為wei幀zhen,以yi幀zhen為wei單dan位wei的de特te征zheng序xu列lie構gou成cheng語yu音yin識shi別bie係xi統tong的de輸shu人ren。由you於yu梅mei爾er倒dao譜pu係xi數shu及ji感gan知zhi線xian性xing預yu測ce係xi數shu能neng夠gou從cong人ren耳er聽ting覺jiao特te性xing的de角jiao度du準zhun確que刻ke畫hua語yu音yin信xin號hao,已yi經jing成cheng為wei目mu前qian主zhu流liu的de語yu音yin特te征zheng。為wei補bu償chang幀zhen間jian獨du立li性xing假jia設she,人ren們men在zai使shi用yong梅mei爾er倒dao譜pu係xi數shu及ji感gan知zhi線xian性xing預yu測ce係xi數shu時shi,通tong常chang加jia上shang它ta們men的de一yi階jie、二階差分,以引入信號特征的動態特征。
聲學模型是語音識別係統中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態聚類、模型參數估計等很多方麵。在目前的LVCSR係(xi)統(tong)中(zhong),普(pu)遍(bian)采(cai)用(yong)上(shang)下(xia)文(wen)相(xiang)關(guan)的(de)模(mo)型(xing)作(zuo)為(wei)基(ji)本(ben)建(jian)模(mo)單(dan)元(yuan),以(yi)刻(ke)畫(hua)連(lian)續(xu)語(yu)音(yin)的(de)協(xie)同(tong)發(fa)音(yin)現(xian)象(xiang)。在(zai)考(kao)慮(lv)了(le)語(yu)境(jing)的(de)影(ying)響(xiang)後(hou),聲(sheng)學(xue)模(mo)型(xing)的(de)數(shu)量(liang)急(ji)劇(ju)增(zeng)加(jia),LVCSR係(xi)統(tong)通(tong)常(chang)采(cai)用(yong)狀(zhuang)態(tai)聚(ju)類(lei)的(de)方(fang)法(fa)壓(ya)縮(suo)聲(sheng)學(xue)參(can)數(shu)的(de)數(shu)量(liang),以(yi)簡(jian)化(hua)模(mo)型(xing)的(de)訓(xun)練(lian)。在(zai)訓(xun)練(lian)過(guo)程(cheng)中(zhong),係(xi)統(tong)對(dui)若(ruo)幹(gan)次(ci)訓(xun)練(lian)語(yu)音(yin)進(jin)行(xing)預(yu)處(chu)理(li),並(bing)通(tong)過(guo)特(te)征(zheng)提(ti)取(qu)得(de)到(dao)特(te)征(zheng)矢(shi)量(liang)序(xu)列(lie),然(ran)後(hou)由(you)特(te)征(zheng)建(jian)模(mo)模(mo)塊(kuai)建(jian)立(li)訓(xun)練(lian)語(yu)音(yin)的(de)參(can)考(kao)模(mo)式(shi)庫(ku)。
搜索是在指定的空間當中,按照一定的優化準則,尋找最優詞序列的過程。搜索的本質是問題求解,廣泛應用於語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(從高層至底層依次為詞、聲學模型、HMM狀態)kongjianzhongzhaodaozuiyoudezhuangtaixulie。zuizhongdecixulieshiduishurudeyuyinxinhaozaiyidingzhunzexiadeyigezuiyoumiaoshu。zaishibiejieduan,jiangshuruyuyindetezhengshiliangcanshutongxunliandedaodecankaomobankuzhongdemoshijinxingxiangsixingduliangbijiao,jiangxiangsiduzuigaodemoshisuoshudeleibiezuoweishibiezhongjianhouxuanjieguoshuchu。weiletigaoshibiedezhengquelv,zaihouchulimokuaizhongduishangshudedaodehouxuanshibiejieguojixuchuli,baokuotongguoLattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。
2.3 聲學建模方法
常用的聲學建模方法包含以下三種:基於模式匹配的動態時間規整法(DTW);隱馬爾可夫模型法(HMM);基於人工神經網絡識別法(ANN)等。
DTW shijiaozaodeyizhongmoshipipeidefangfa。tajiyudongtaiguihuadesixiang,jiejueguliciyuyinshibiezhongdeyuyinxinhaotezhengcanshuxuliebijiaoshichangdubuyidemobanpipeiwenti 在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度並選擇最佳路徑。
HMM是對語音信號的時間序列結構所建立的統計模型,是在馬爾可夫鏈的基礎上發展起來的,它是一種基於參數模型的統計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一(yi)個(ge)是(shi)用(yong)具(ju)有(you)有(you)限(xian)狀(zhuang)態(tai)數(shu)的(de)馬(ma)爾(er)可(ke)夫(fu)鏈(lian)來(lai)模(mo)擬(ni)語(yu)音(yin)信(xin)號(hao)統(tong)計(ji)特(te)性(xing)變(bian)化(hua)的(de)隱(yin)含(han)的(de)隨(sui)機(ji)過(guo)程(cheng),另(ling)一(yi)個(ge)是(shi)與(yu)馬(ma)爾(er)可(ke)夫(fu)鏈(lian)的(de)每(mei)一(yi)個(ge)狀(zhuang)態(tai)相(xiang)關(guan)聯(lian)的(de)觀(guan)測(ce)序(xu)列(lie)的(de)隨(sui)機(ji)過(guo)程(cheng)。
[page]
ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元並行分布運算的原理、高效的學習算法以及對人的認知係統的模仿能力充分運用到語音識別領域,並結合神經網絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態特性方麵的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態的後驗概率。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型係統大大提高了語音識別的準確率。
3 語音識別的應用
語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控製係統中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、minglinghuoxunwenlaizuochuzhengquedexiangying,zheyangjikeyikefurengongjianpanshurusuduman,jiyichuchacuodequedian,youyouliyusuoduanxitongdefanyingshijian,shirenjijiaoliubiandejianbianyixing,biruyongyushengkongyuyinbohaoxitong、聲控智能玩具、智能家電等領域。在智能對話查詢係統中,人們通過語音命令,可以方便地從遠端的數據庫係統中查詢與提取有關信息,享受自然、友好的數據庫檢索服務,例如信息網絡查詢、醫療服務、銀行服務等。語音識別技術還可以應用於自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現跨語言交流。
yuyinshibiejishuzaijunshidouzhenglingyuliyeyouzhejiweizhongyaodeyingyongjiazhihejiqiguangkuodeyingyongkongjian。yixieyuyinshibiejishujiushizheyanyujunshihuodongeryanfa,bingzaijunshilingyushouxianyingyong、首獲成效的,軍事應用對語音識別係統的識別精度、響應時間、eliehuanjingxiadewanjianxingdoutichulegenggaodeyaoqiu。muqian,yuyinshibiejishuyizaijunshizhihuihekongzhizidonghuafangmiandeyiyingyong。biru,jiangyuyinshibiejishuyingyongyuhangkongfeixingkongzhi,kekuaisutigaozuozhanxiaolvhejianqingfeixingyuandegongzuofudan,feixingyuanliyongyuyinshurenlaidaitichuantongdeshoudongcaozuohekongzhigezhongkaiguanheshebei,yijizhongxingaibianhuopailiexianshiqishangdexianshixinxideng,keshifeixingyuanbashijianhejinglijizhongyuduigongjimubiaodepanduanhewanchengqitacaozuoshanglai,yibiangengkuaihuodexinxilaifahuizhanshuyoushi。
4 結語
yuyinshibiedeyanjiugongzuoduiyuxinxihuashehuidefazhan,renmenshenghuoshuipingdetigaodengfangmianyouzheshenyuandeyiyi。suizhejisuanjixinxijishudebuduanfazhan,yuyinshibiejishujiangqudegengduozhongdatupo,yuyinshibiexitongdeyanjiujianghuigengjiashenru,youzhegengjiaguangkuodefazhankongjian。
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 貿澤EIT係列新一期,探索AI如何重塑日常科技與用戶體驗
- 算力爆發遇上電源革新,大聯大世平集團攜手晶豐明源線上研討會解鎖應用落地
- 創新不止,創芯不已:第六屆ICDIA創芯展8月南京盛大啟幕!
- AI時代,為什麼存儲基礎設施的可靠性決定數據中心的經濟效益
- 矽典微ONELAB開發係列:為毫米波算法開發者打造的全棧工具鏈
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索




