智能手機的超性能語音識別技術
發布時間:2011-12-20
中心議題:
當語音識別技術應用到計算機桌麵的時候,這看起來似乎是一個好主意。但是,對於大多數人來說,語音識別還不能取代鍵盤和鼠標。現在,語音技術正用於一個全新的環境:shouji。yuyinshibiejishuzaishoujizhongdeyingyongjiangjinyibutuidongzhezhongjishuxiangxindefangxiangfazhanheyingyong。zheshiyuyinshibiejishuzaitaishidiannaoyingyongzhongconglaimeiyoushezudefangxiang。
IBM今年將紀念其創建100周年。IBM在60年代初期創建了一個名為“Shoebox”的試驗性的語音識別係統。這個係統解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現的,當時主要是由於好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞並且能夠回答簡單的數學問題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictate可(ke)能(neng)是(shi)第(di)一(yi)個(ge)語(yu)音(yin)識(shi)別(bie)應(ying)用(yong)程(cheng)序(xu)。這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)隻(zhi)能(neng)識(shi)別(bie)單(dan)個(ge)單(dan)詞(ci),每(mei)次(ci)隻(zhi)說(shuo)一(yi)個(ge)單(dan)詞(ci)。隨(sui)著(zhe)時(shi)間(jian)的(de)推(tui)移(yi),這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)已(yi)經(jing)發(fa)展(zhan)成(cheng)為(wei)名(ming)為(wei)“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。
語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)在(zai)台(tai)式(shi)電(dian)腦(nao)中(zhong)的(de)應(ying)用(yong)有(you)兩(liang)個(ge)製(zhi)約(yue)因(yin)素(su)。第(di)一(yi),為(wei)了(le)使(shi)這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)以(yi)更(geng)高(gao)的(de)準(zhun)確(que)性(xing)工(gong)作(zuo),這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)必(bi)須(xu)要(yao)進(jin)行(xing)訓(xun)練(lian)以(yi)便(bian)識(shi)別(bie)用(yong)戶(hu)的(de)語(yu)音(yin)特(te)征(zheng)。Windows Vista和Windows 7操作係統中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產品仍然都需要一個用戶訓練期才能使用。
第二個製約因素是鍵盤的流行程度。大多數人已經習慣於鍵盤打字而不是講話,因此,語音控製麵臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足並且工作的很好的時候,為什麼要學習使用Dvorak鍵盤呢?
微軟TellMe團隊是負責為多媒體環境開發語音識別技術的部門。TellMe團隊高級產品經理Abhi Rele指出,在台式電腦環境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。
語音控製的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。手機正是很長時間以來一直在增長的這種地方。
Nuance負責產品管理和營銷的副總裁Matt Revis解釋說,台式電腦和移動環境的區別是這樣的:台式電腦是一個固定的環境,重點完全在於台式電腦的使用情況。因此,台式電腦的語音技術主要執行如下任務:支持辦公應用程序、網絡瀏覽、通訊等。在移動方麵,語音更多地用於支持各種生活方式方麵:移動中的專業人員、戶外的有趣活動、免提電話等等。
Gartner分析師Tuong Nguyen讚同這個觀點:語音在移動環境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。
Nguyen補bu充chong說shuo,如ru果guo不bu用yong語yu音yin技ji術shu說shuo出chu一yi個ge簡jian單dan的de說shuo明ming語yu句ju,而er是shi翻fan動dong許xu多duo菜cai單dan或huo者zhe努nu力li地di在zai小xiao顯xian示shi屏ping鍵jian盤pan上shang進jin行xing輸shu入ru,語yu音yin識shi別bie的de價jia值zhi就jiu顯xian現xian出chu來lai了le。隨sui著zhe觸chu摸mo屏ping設she備bei(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數據輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設備方麵
因為移動設備一般僅支持台式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現在手機中。
語音處理Springer手冊解釋了手機在2000年(nian)代(dai)初(chu)的(de)情(qing)況(kuang)。盡(jin)管(guan)那(na)時(shi)還(hai)有(you)一(yi)些(xie)局(ju)限(xian)性(xing),但(dan)是(shi),手(shou)機(ji)經(jing)過(guo)編(bian)程(cheng)之(zhi)後(hou)能(neng)夠(gou)識(shi)別(bie)逐(zhu)個(ge)數(shu)字(zi)的(de)撥(bo)號(hao)語(yu)音(yin),在(zai)某(mou)種(zhong)程(cheng)度(du)上(shang)還(hai)能(neng)識(shi)別(bie)人(ren)的(de)名(ming)字(zi)。主(zhu)要(yao)問(wen)題(ti)是(shi)內(nei)存(cun),因(yin)此(ci),大(da)多(duo)數(shu)手(shou)機(ji)一(yi)次(ci)隻(zhi)能(neng)識(shi)別(bie)10個數字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方麵的營銷很糟糕。
隨著手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限製。
另(ling)一(yi)個(ge)關(guan)鍵(jian)的(de)進(jin)步(bu)是(shi)網(wang)絡(luo)速(su)度(du)。速(su)度(du)更(geng)快(kuai)的(de)無(wu)線(xian)網(wang)絡(luo)浪(lang)潮(chao)抬(tai)高(gao)了(le)許(xu)多(duo)大(da)船(chuan),包(bao)括(kuo)最(zui)新(xin)一(yi)代(dai)的(de)語(yu)音(yin)處(chu)理(li)技(ji)術(shu)。速(su)度(du)更(geng)快(kuai)的(de)網(wang)絡(luo)能(neng)夠(gou)把(ba)語(yu)音(yin)處(chu)理(li)任(ren)務(wu)從(cong)網(wang)絡(luo)遷(qian)移(yi)到(dao)遠(yuan)程(cheng)服(fu)務(wu)器(qi)。
穀歌語音搜索產品經理Amir Mane解jie釋shi了le速su度du更geng快kuai的de網wang絡luo是shi如ru何he幫bang助zhu穀gu歌ge語yu音yin應ying用yong程cheng序xu的de。他ta說shuo,由you於yu所suo有you繁fan重zhong的de處chu理li任ren務wu都dou是shi由you穀gu歌ge服fu務wu器qi在zai網wang絡luo上shang處chu理li的de,我wo們men減jian少shao了le掌zhang上shang設she備bei計ji算suan能neng力li的de限xian製zhi。
目前的應用程序
手shou機ji語yu音yin識shi別bie技ji術shu目mu前qian的de狀zhuang態tai不bu僅jin僅jin局ju限xian於yu語yu音yin撥bo號hao。語yu音yin啟qi動dong的de功gong能neng實shi際ji上shang就jiu包bao括kuo語yu音yin撥bo號hao。這zhe是shi手shou機ji上shang出chu現xian的de第di一yi個ge語yu音yin識shi別bie功gong能neng。目mu前qian,甚shen至zhi許xu多duo低di端duan手shou機ji都dou有you這zhe個ge功gong能neng,盡jin管guan這zhe個ge功gong能neng處chu理li手shou機ji電dian話hua簿bu中zhong一yi些xie不bu常chang用yong的de名ming字zi的de時shi稍shao差cha一yi些xie。
Gartner分析師Nguyen指zhi出chu,比bi較jiao新xin的de一yi代dai語yu音yin功gong能neng是shi更geng開kai放fang的de。不bu用yong編bian程cheng執zhi行xing某mou些xie功gong能neng的de具ju體ti的de語yu音yin指zhi令ling,應ying用yong程cheng序xu可ke識shi別bie語yu音yin並bing且qie執zhi行xing適shi當dang的de行xing動dong。更geng高gao端duan的de、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。
穀gu歌ge語yu音yin搜sou索suo擁yong有you比bi以yi前qian的de語yu音yin識shi別bie技ji術shu更geng少shao的de限xian製zhi,因yin為wei所suo有you的de繁fan重zhong任ren務wu都dou是shi由you網wang絡luo服fu務wu器qi完wan成cheng的de。這zhe使shi穀gu歌ge語yu音yin搜sou索suo等deng語yu音yin驅qu動dong的de應ying用yong程cheng序xu更geng可ke行xing。例li如ru,如ru果guo你ni說shuo“創戰紀電影時間”,你會看到一個網頁列出地區編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網站(上映時間)的信息。
這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞彙的差別。如果我說“摩特裏褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞彙方便使用這個樂隊的獨特的拚寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。
這(zhe)就(jiu)是(shi)說(shuo)穀(gu)歌(ge)語(yu)音(yin)識(shi)別(bie)的(de)限(xian)製(zhi)明(ming)顯(xian)地(di)表(biao)明(ming)將(jiang)使(shi)你(ni)進(jin)一(yi)步(bu)脫(tuo)離(li)主(zhu)流(liu)的(de)英(ying)語(yu)。外(wai)國(guo)人(ren)的(de)名(ming)字(zi)是(shi)沒(mei)有(you)幫(bang)助(zhu)的(de)。語(yu)音(yin)識(shi)別(bie)應(ying)用(yong)程(cheng)序(xu)的(de)另(ling)一(yi)個(ge)問(wen)題(ti)是(shi)環(huan)境(jing)的(de)噪(zao)音(yin)。移(yi)動(dong)用(yong)戶(hu)受(shou)環(huan)境(jing)噪(zao)音(yin)的(de)影(ying)響(xiang)通(tong)常(chang)比(bi)台(tai)式(shi)電(dian)腦(nao)用(yong)戶(hu)多(duo)。Nuance公司的Revis稱,在充滿噪音的戶外環境中,語音識別的準確性是一個問題。
自從2005年三星的那款手機推出以來,聽寫功能已經取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內容。用於電子郵件的Dragon軟件為黑莓設備提供了類似的功能。
對於Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發短信。
文本之間的翻譯目前已經推出多年(如通過知名的Babel Fish網站進行翻譯)。同聲翻譯功能現在還沒有,不過,這種軟件很快會推出。例如,用於iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向
詢問參加開發語音技術的每一個人下一個巨大的步驟是什麼。他們一般會給你一個答案:自然語言處理。
Revis把(ba)它(ta)解(jie)釋(shi)為(wei)理(li)解(jie)你(ni)的(de)意(yi)思(si)的(de)係(xi)統(tong),它(ta)不(bu)僅(jin)僅(jin)知(zhi)道(dao)你(ni)說(shuo)什(shen)麼(me)。在(zai)會(hui)話(hua)式(shi)的(de)互(hu)動(dong)模(mo)式(shi)中(zhong),用(yong)戶(hu)說(shuo)自(zi)己(ji)要(yao)說(shuo)的(de)話(hua),沒(mei)有(you)限(xian)製(zhi)用(yong)戶(hu)如(ru)何(he)說(shuo)這(zhe)個(ge)話(hua)。他(ta)提(ti)供(gong)了(le)指(zhi)令(ling)或(huo)者(zhe)要(yao)求(qiu)得(de)到(dao)信(xin)息(xi)的(de)例(li)子(zi),如(ru)“我在什麼地方能夠買到100美元以下的尼康照相機?”或者“給傑尼發個短信說我晚到20分鍾”或者“今天晚上在Morton''''s訂三個人的地方”。
穀歌的Mane稱(cheng),在(zai)口(kou)語(yu)對(dui)話(hua)中(zhong)提(ti)供(gong)自(zi)然(ran)的(de)語(yu)言(yan)處(chu)理(li)是(shi)一(yi)個(ge)雙(shuang)重(zhong)挑(tiao)戰(zhan)。首(shou)先(xian),你(ni)必(bi)須(xu)識(shi)別(bie)這(zhe)些(xie)單(dan)詞(ci),然(ran)後(hou),你(ni)必(bi)須(xu)理(li)解(jie)這(zhe)個(ge)意(yi)思(si)。第(di)一(yi)部(bu)分(fen)變(bian)得(de)更(geng)加(jia)容(rong)易(yi)了(le)。但(dan)是(shi),第(di)二(er)部(bu)分(fen)仍(reng)然(ran)很(hen)難(nan)解(jie)決(jue):意思是根據上下文確定的和難以應付的,人類做的語法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(如羅盤或者GPS)能夠增強自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數據把這個任務分開,如使用日曆、飯店排名、電影評論和位置等數據。
此外,手機的服務能夠用於提供講話的環境。Rele表(biao)示(shi),用(yong)戶(hu)的(de)語(yu)音(yin)輸(shu)入(ru)以(yi)及(ji)從(cong)其(qi)它(ta)有(you)關(guan)用(yong)戶(hu)及(ji)用(yong)戶(hu)環(huan)境(jing)的(de)傳(chuan)感(gan)器(qi)和(he)狀(zhuang)態(tai)獲(huo)得(de)的(de)智(zhi)能(neng)信(xin)息(xi)可(ke)以(yi)提(ti)供(gong)更(geng)豐(feng)富(fu)的(de)和(he)更(geng)相(xiang)關(guan)的(de)結(jie)果(guo)。例(li)如(ru),如(ru)果(guo)你(ni)剛(gang)剛(gang)使(shi)用(yong)Foursquare網站查看有關飯店,一些含糊的語音指令就會傾向於外出吃飯、訂膳宿和要一輛出租車等事情。
多平台應用程序Vlingo自稱是“虛擬助手”,已經能夠提供這些方麵的功能。這個軟件插入到OpenTable和Fandango等服務中以完成許多任務:訂飯店、訂電影票等等。
Nguyen認為未來語音識別技術改善的另一個領域是遊戲。他說,在遊戲中可以使用語音以增加玩遊戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經應用的另一個功能是自動地把語音識別適用於單個用戶。這是台式電腦語音識別技術所要求的免提版語音訓練。
例如,最新版本的穀歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調方麵畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。
然而,個性化識別並不是一個能夠解決一切問題的技術,它隻是實現語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因為還會有更多的一係列的技術創新。Mane認為,這種技術未來的改進需要我們的用戶更積極的參與。
結論
shoujiyizhishixuduojishudefuhuaqihetuidongyinsu,zhebaokuoyingjianheruanjianjishu。daomuqianweizhi,zaizhegezuhezhongzengjiayuyingongnengjinchanshenglezhubudegaishan,gugeyuyinyingyongchengxudehenhaodegongneng。
但(dan)是(shi),這(zhe)些(xie)改(gai)進(jin)正(zheng)逐(zhu)步(bu)地(di)為(wei)更(geng)重(zhong)要(yao)的(de)進(jin)步(bu)鋪(pu)平(ping)道(dao)路(lu)。移(yi)動(dong)技(ji)術(shu)為(wei)如(ru)何(he)聚(ju)集(ji)這(zhe)些(xie)新(xin)技(ji)術(shu)提(ti)供(gong)了(le)一(yi)個(ge)全(quan)新(xin)的(de)舞(wu)台(tai)。下(xia)一(yi)步(bu)也(ye)許(xu)不(bu)是(shi)一(yi)個(ge)理(li)解(jie)你(ni)說(shuo)的(de)一(yi)切(qie)事(shi)情(qing)的(de)手(shou)機(ji),而(er)是(shi)能(neng)夠(gou)充(chong)分(fen)理(li)解(jie)你(ni)說(shuo)的(de)事(shi)情(qing)的(de)一(yi)個(ge)更(geng)有(you)用(yong)的(de)手(shou)機(ji)。
- 學習智能手機的超性能語音識別技術
- 手機提供的羅盤或者GPS能夠增強自然語言處理的有用性
- 在移動設備方麵設計
- 硬件和軟件技術
當語音識別技術應用到計算機桌麵的時候,這看起來似乎是一個好主意。但是,對於大多數人來說,語音識別還不能取代鍵盤和鼠標。現在,語音技術正用於一個全新的環境:shouji。yuyinshibiejishuzaishoujizhongdeyingyongjiangjinyibutuidongzhezhongjishuxiangxindefangxiangfazhanheyingyong。zheshiyuyinshibiejishuzaitaishidiannaoyingyongzhongconglaimeiyoushezudefangxiang。
IBM今年將紀念其創建100周年。IBM在60年代初期創建了一個名為“Shoebox”的試驗性的語音識別係統。這個係統解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現的,當時主要是由於好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞並且能夠回答簡單的數學問題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictate可(ke)能(neng)是(shi)第(di)一(yi)個(ge)語(yu)音(yin)識(shi)別(bie)應(ying)用(yong)程(cheng)序(xu)。這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)隻(zhi)能(neng)識(shi)別(bie)單(dan)個(ge)單(dan)詞(ci),每(mei)次(ci)隻(zhi)說(shuo)一(yi)個(ge)單(dan)詞(ci)。隨(sui)著(zhe)時(shi)間(jian)的(de)推(tui)移(yi),這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)已(yi)經(jing)發(fa)展(zhan)成(cheng)為(wei)名(ming)為(wei)“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。
語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)在(zai)台(tai)式(shi)電(dian)腦(nao)中(zhong)的(de)應(ying)用(yong)有(you)兩(liang)個(ge)製(zhi)約(yue)因(yin)素(su)。第(di)一(yi),為(wei)了(le)使(shi)這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)以(yi)更(geng)高(gao)的(de)準(zhun)確(que)性(xing)工(gong)作(zuo),這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)必(bi)須(xu)要(yao)進(jin)行(xing)訓(xun)練(lian)以(yi)便(bian)識(shi)別(bie)用(yong)戶(hu)的(de)語(yu)音(yin)特(te)征(zheng)。Windows Vista和Windows 7操作係統中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產品仍然都需要一個用戶訓練期才能使用。
第二個製約因素是鍵盤的流行程度。大多數人已經習慣於鍵盤打字而不是講話,因此,語音控製麵臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足並且工作的很好的時候,為什麼要學習使用Dvorak鍵盤呢?
微軟TellMe團隊是負責為多媒體環境開發語音識別技術的部門。TellMe團隊高級產品經理Abhi Rele指出,在台式電腦環境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。
語音控製的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。手機正是很長時間以來一直在增長的這種地方。
Nuance負責產品管理和營銷的副總裁Matt Revis解釋說,台式電腦和移動環境的區別是這樣的:台式電腦是一個固定的環境,重點完全在於台式電腦的使用情況。因此,台式電腦的語音技術主要執行如下任務:支持辦公應用程序、網絡瀏覽、通訊等。在移動方麵,語音更多地用於支持各種生活方式方麵:移動中的專業人員、戶外的有趣活動、免提電話等等。
Gartner分析師Tuong Nguyen讚同這個觀點:語音在移動環境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。
Nguyen補bu充chong說shuo,如ru果guo不bu用yong語yu音yin技ji術shu說shuo出chu一yi個ge簡jian單dan的de說shuo明ming語yu句ju,而er是shi翻fan動dong許xu多duo菜cai單dan或huo者zhe努nu力li地di在zai小xiao顯xian示shi屏ping鍵jian盤pan上shang進jin行xing輸shu入ru,語yu音yin識shi別bie的de價jia值zhi就jiu顯xian現xian出chu來lai了le。隨sui著zhe觸chu摸mo屏ping設she備bei(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數據輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設備方麵
因為移動設備一般僅支持台式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現在手機中。
語音處理Springer手冊解釋了手機在2000年(nian)代(dai)初(chu)的(de)情(qing)況(kuang)。盡(jin)管(guan)那(na)時(shi)還(hai)有(you)一(yi)些(xie)局(ju)限(xian)性(xing),但(dan)是(shi),手(shou)機(ji)經(jing)過(guo)編(bian)程(cheng)之(zhi)後(hou)能(neng)夠(gou)識(shi)別(bie)逐(zhu)個(ge)數(shu)字(zi)的(de)撥(bo)號(hao)語(yu)音(yin),在(zai)某(mou)種(zhong)程(cheng)度(du)上(shang)還(hai)能(neng)識(shi)別(bie)人(ren)的(de)名(ming)字(zi)。主(zhu)要(yao)問(wen)題(ti)是(shi)內(nei)存(cun),因(yin)此(ci),大(da)多(duo)數(shu)手(shou)機(ji)一(yi)次(ci)隻(zhi)能(neng)識(shi)別(bie)10個數字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方麵的營銷很糟糕。
隨著手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限製。
另(ling)一(yi)個(ge)關(guan)鍵(jian)的(de)進(jin)步(bu)是(shi)網(wang)絡(luo)速(su)度(du)。速(su)度(du)更(geng)快(kuai)的(de)無(wu)線(xian)網(wang)絡(luo)浪(lang)潮(chao)抬(tai)高(gao)了(le)許(xu)多(duo)大(da)船(chuan),包(bao)括(kuo)最(zui)新(xin)一(yi)代(dai)的(de)語(yu)音(yin)處(chu)理(li)技(ji)術(shu)。速(su)度(du)更(geng)快(kuai)的(de)網(wang)絡(luo)能(neng)夠(gou)把(ba)語(yu)音(yin)處(chu)理(li)任(ren)務(wu)從(cong)網(wang)絡(luo)遷(qian)移(yi)到(dao)遠(yuan)程(cheng)服(fu)務(wu)器(qi)。
穀歌語音搜索產品經理Amir Mane解jie釋shi了le速su度du更geng快kuai的de網wang絡luo是shi如ru何he幫bang助zhu穀gu歌ge語yu音yin應ying用yong程cheng序xu的de。他ta說shuo,由you於yu所suo有you繁fan重zhong的de處chu理li任ren務wu都dou是shi由you穀gu歌ge服fu務wu器qi在zai網wang絡luo上shang處chu理li的de,我wo們men減jian少shao了le掌zhang上shang設she備bei計ji算suan能neng力li的de限xian製zhi。
目前的應用程序
手shou機ji語yu音yin識shi別bie技ji術shu目mu前qian的de狀zhuang態tai不bu僅jin僅jin局ju限xian於yu語yu音yin撥bo號hao。語yu音yin啟qi動dong的de功gong能neng實shi際ji上shang就jiu包bao括kuo語yu音yin撥bo號hao。這zhe是shi手shou機ji上shang出chu現xian的de第di一yi個ge語yu音yin識shi別bie功gong能neng。目mu前qian,甚shen至zhi許xu多duo低di端duan手shou機ji都dou有you這zhe個ge功gong能neng,盡jin管guan這zhe個ge功gong能neng處chu理li手shou機ji電dian話hua簿bu中zhong一yi些xie不bu常chang用yong的de名ming字zi的de時shi稍shao差cha一yi些xie。
Gartner分析師Nguyen指zhi出chu,比bi較jiao新xin的de一yi代dai語yu音yin功gong能neng是shi更geng開kai放fang的de。不bu用yong編bian程cheng執zhi行xing某mou些xie功gong能neng的de具ju體ti的de語yu音yin指zhi令ling,應ying用yong程cheng序xu可ke識shi別bie語yu音yin並bing且qie執zhi行xing適shi當dang的de行xing動dong。更geng高gao端duan的de、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。
穀gu歌ge語yu音yin搜sou索suo擁yong有you比bi以yi前qian的de語yu音yin識shi別bie技ji術shu更geng少shao的de限xian製zhi,因yin為wei所suo有you的de繁fan重zhong任ren務wu都dou是shi由you網wang絡luo服fu務wu器qi完wan成cheng的de。這zhe使shi穀gu歌ge語yu音yin搜sou索suo等deng語yu音yin驅qu動dong的de應ying用yong程cheng序xu更geng可ke行xing。例li如ru,如ru果guo你ni說shuo“創戰紀電影時間”,你會看到一個網頁列出地區編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網站(上映時間)的信息。
這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞彙的差別。如果我說“摩特裏褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞彙方便使用這個樂隊的獨特的拚寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。
這(zhe)就(jiu)是(shi)說(shuo)穀(gu)歌(ge)語(yu)音(yin)識(shi)別(bie)的(de)限(xian)製(zhi)明(ming)顯(xian)地(di)表(biao)明(ming)將(jiang)使(shi)你(ni)進(jin)一(yi)步(bu)脫(tuo)離(li)主(zhu)流(liu)的(de)英(ying)語(yu)。外(wai)國(guo)人(ren)的(de)名(ming)字(zi)是(shi)沒(mei)有(you)幫(bang)助(zhu)的(de)。語(yu)音(yin)識(shi)別(bie)應(ying)用(yong)程(cheng)序(xu)的(de)另(ling)一(yi)個(ge)問(wen)題(ti)是(shi)環(huan)境(jing)的(de)噪(zao)音(yin)。移(yi)動(dong)用(yong)戶(hu)受(shou)環(huan)境(jing)噪(zao)音(yin)的(de)影(ying)響(xiang)通(tong)常(chang)比(bi)台(tai)式(shi)電(dian)腦(nao)用(yong)戶(hu)多(duo)。Nuance公司的Revis稱,在充滿噪音的戶外環境中,語音識別的準確性是一個問題。
自從2005年三星的那款手機推出以來,聽寫功能已經取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內容。用於電子郵件的Dragon軟件為黑莓設備提供了類似的功能。
對於Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發短信。
文本之間的翻譯目前已經推出多年(如通過知名的Babel Fish網站進行翻譯)。同聲翻譯功能現在還沒有,不過,這種軟件很快會推出。例如,用於iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向
詢問參加開發語音技術的每一個人下一個巨大的步驟是什麼。他們一般會給你一個答案:自然語言處理。
Revis把(ba)它(ta)解(jie)釋(shi)為(wei)理(li)解(jie)你(ni)的(de)意(yi)思(si)的(de)係(xi)統(tong),它(ta)不(bu)僅(jin)僅(jin)知(zhi)道(dao)你(ni)說(shuo)什(shen)麼(me)。在(zai)會(hui)話(hua)式(shi)的(de)互(hu)動(dong)模(mo)式(shi)中(zhong),用(yong)戶(hu)說(shuo)自(zi)己(ji)要(yao)說(shuo)的(de)話(hua),沒(mei)有(you)限(xian)製(zhi)用(yong)戶(hu)如(ru)何(he)說(shuo)這(zhe)個(ge)話(hua)。他(ta)提(ti)供(gong)了(le)指(zhi)令(ling)或(huo)者(zhe)要(yao)求(qiu)得(de)到(dao)信(xin)息(xi)的(de)例(li)子(zi),如(ru)“我在什麼地方能夠買到100美元以下的尼康照相機?”或者“給傑尼發個短信說我晚到20分鍾”或者“今天晚上在Morton''''s訂三個人的地方”。
穀歌的Mane稱(cheng),在(zai)口(kou)語(yu)對(dui)話(hua)中(zhong)提(ti)供(gong)自(zi)然(ran)的(de)語(yu)言(yan)處(chu)理(li)是(shi)一(yi)個(ge)雙(shuang)重(zhong)挑(tiao)戰(zhan)。首(shou)先(xian),你(ni)必(bi)須(xu)識(shi)別(bie)這(zhe)些(xie)單(dan)詞(ci),然(ran)後(hou),你(ni)必(bi)須(xu)理(li)解(jie)這(zhe)個(ge)意(yi)思(si)。第(di)一(yi)部(bu)分(fen)變(bian)得(de)更(geng)加(jia)容(rong)易(yi)了(le)。但(dan)是(shi),第(di)二(er)部(bu)分(fen)仍(reng)然(ran)很(hen)難(nan)解(jie)決(jue):意思是根據上下文確定的和難以應付的,人類做的語法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(如羅盤或者GPS)能夠增強自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數據把這個任務分開,如使用日曆、飯店排名、電影評論和位置等數據。
此外,手機的服務能夠用於提供講話的環境。Rele表(biao)示(shi),用(yong)戶(hu)的(de)語(yu)音(yin)輸(shu)入(ru)以(yi)及(ji)從(cong)其(qi)它(ta)有(you)關(guan)用(yong)戶(hu)及(ji)用(yong)戶(hu)環(huan)境(jing)的(de)傳(chuan)感(gan)器(qi)和(he)狀(zhuang)態(tai)獲(huo)得(de)的(de)智(zhi)能(neng)信(xin)息(xi)可(ke)以(yi)提(ti)供(gong)更(geng)豐(feng)富(fu)的(de)和(he)更(geng)相(xiang)關(guan)的(de)結(jie)果(guo)。例(li)如(ru),如(ru)果(guo)你(ni)剛(gang)剛(gang)使(shi)用(yong)Foursquare網站查看有關飯店,一些含糊的語音指令就會傾向於外出吃飯、訂膳宿和要一輛出租車等事情。
多平台應用程序Vlingo自稱是“虛擬助手”,已經能夠提供這些方麵的功能。這個軟件插入到OpenTable和Fandango等服務中以完成許多任務:訂飯店、訂電影票等等。
Nguyen認為未來語音識別技術改善的另一個領域是遊戲。他說,在遊戲中可以使用語音以增加玩遊戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經應用的另一個功能是自動地把語音識別適用於單個用戶。這是台式電腦語音識別技術所要求的免提版語音訓練。
例如,最新版本的穀歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調方麵畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。
然而,個性化識別並不是一個能夠解決一切問題的技術,它隻是實現語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因為還會有更多的一係列的技術創新。Mane認為,這種技術未來的改進需要我們的用戶更積極的參與。
結論
shoujiyizhishixuduojishudefuhuaqihetuidongyinsu,zhebaokuoyingjianheruanjianjishu。daomuqianweizhi,zaizhegezuhezhongzengjiayuyingongnengjinchanshenglezhubudegaishan,gugeyuyinyingyongchengxudehenhaodegongneng。
但(dan)是(shi),這(zhe)些(xie)改(gai)進(jin)正(zheng)逐(zhu)步(bu)地(di)為(wei)更(geng)重(zhong)要(yao)的(de)進(jin)步(bu)鋪(pu)平(ping)道(dao)路(lu)。移(yi)動(dong)技(ji)術(shu)為(wei)如(ru)何(he)聚(ju)集(ji)這(zhe)些(xie)新(xin)技(ji)術(shu)提(ti)供(gong)了(le)一(yi)個(ge)全(quan)新(xin)的(de)舞(wu)台(tai)。下(xia)一(yi)步(bu)也(ye)許(xu)不(bu)是(shi)一(yi)個(ge)理(li)解(jie)你(ni)說(shuo)的(de)一(yi)切(qie)事(shi)情(qing)的(de)手(shou)機(ji),而(er)是(shi)能(neng)夠(gou)充(chong)分(fen)理(li)解(jie)你(ni)說(shuo)的(de)事(shi)情(qing)的(de)一(yi)個(ge)更(geng)有(you)用(yong)的(de)手(shou)機(ji)。
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索




