智能手機的超性能語音識別技術
發布時間:2011-12-20
中心議題:
當語音識別技術應用到計算機桌麵的時候,這看起來似乎是一個好主意。但是,對於大多數人來說,語音識別還不能取代鍵盤和鼠標。現在,語音技術正用於一個全新的環境:shouji。yuyinshibiejishuzaishoujizhongdeyingyongjiangjinyibutuidongzhezhongjishuxiangxindefangxiangfazhanheyingyong。zheshiyuyinshibiejishuzaitaishidiannaoyingyongzhongconglaimeiyoushezudefangxiang。
IBM今年將紀念其創建100周年。IBM在60年代初期創建了一個名為“Shoebox”的試驗性的語音識別係統。這個係統解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現的,當時主要是由於好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞並且能夠回答簡單的數學問題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictate可(ke)能(neng)是(shi)第(di)一(yi)個(ge)語(yu)音(yin)識(shi)別(bie)應(ying)用(yong)程(cheng)序(xu)。這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)隻(zhi)能(neng)識(shi)別(bie)單(dan)個(ge)單(dan)詞(ci),每(mei)次(ci)隻(zhi)說(shuo)一(yi)個(ge)單(dan)詞(ci)。隨(sui)著(zhe)時(shi)間(jian)的(de)推(tui)移(yi),這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)已(yi)經(jing)發(fa)展(zhan)成(cheng)為(wei)名(ming)為(wei)“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。
yuyinshibiejishuzaitaishidiannaozhongdeyingyongyoulianggezhiyueyinsu。diyi,weileshizhegeyingyongchengxuyigenggaodezhunquexinggongzuo,zhegeyingyongchengxubixuyaojinxingxunlianyibianshibieyonghudeyuyintezheng。Windows Vista和Windows 7操作係統中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產品仍然都需要一個用戶訓練期才能使用。
第二個製約因素是鍵盤的流行程度。大多數人已經習慣於鍵盤打字而不是講話,因此,語音控製麵臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足並且工作的很好的時候,為什麼要學習使用Dvorak鍵盤呢?
微軟TellMe團隊是負責為多媒體環境開發語音識別技術的部門。TellMe團隊高級產品經理Abhi Rele指出,在台式電腦環境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。
語音控製的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。手機正是很長時間以來一直在增長的這種地方。
Nuance負責產品管理和營銷的副總裁Matt Revis解釋說,台式電腦和移動環境的區別是這樣的:台式電腦是一個固定的環境,重點完全在於台式電腦的使用情況。因此,台式電腦的語音技術主要執行如下任務:支持辦公應用程序、網絡瀏覽、通訊等。在移動方麵,語音更多地用於支持各種生活方式方麵:移動中的專業人員、戶外的有趣活動、免提電話等等。
Gartner分析師Tuong Nguyen讚同這個觀點:語音在移動環境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。
Nguyen補(bu)充(chong)說(shuo),如(ru)果(guo)不(bu)用(yong)語(yu)音(yin)技(ji)術(shu)說(shuo)出(chu)一(yi)個(ge)簡(jian)單(dan)的(de)說(shuo)明(ming)語(yu)句(ju),而(er)是(shi)翻(fan)動(dong)許(xu)多(duo)菜(cai)單(dan)或(huo)者(zhe)努(nu)力(li)地(di)在(zai)小(xiao)顯(xian)示(shi)屏(ping)鍵(jian)盤(pan)上(shang)進(jin)行(xing)輸(shu)入(ru),語(yu)音(yin)識(shi)別(bie)的(de)價(jia)值(zhi)就(jiu)顯(xian)現(xian)出(chu)來(lai)了(le)。隨(sui)著(zhe)觸(chu)摸(mo)屏(ping)設(she)備(bei)(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數據輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設備方麵
因為移動設備一般僅支持台式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現在手機中。
語音處理Springer手冊解釋了手機在2000niandaichudeqingkuang。jinguannashihaiyouyixiejuxianxing,danshi,shoujijingguobianchengzhihounenggoushibiezhugeshuzidebohaoyuyin,zaimouzhongchengdushanghainengshibierendemingzi。zhuyaowentishineicun,yinci,daduoshushoujiyicizhinengshibie10個數字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方麵的營銷很糟糕。
隨著手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限製。
另ling一yi個ge關guan鍵jian的de進jin步bu是shi網wang絡luo速su度du。速su度du更geng快kuai的de無wu線xian網wang絡luo浪lang潮chao抬tai高gao了le許xu多duo大da船chuan,包bao括kuo最zui新xin一yi代dai的de語yu音yin處chu理li技ji術shu。速su度du更geng快kuai的de網wang絡luo能neng夠gou把ba語yu音yin處chu理li任ren務wu從cong網wang絡luo遷qian移yi到dao遠yuan程cheng服fu務wu器qi。
穀歌語音搜索產品經理Amir Manejieshilesudugengkuaidewangluoshiruhebangzhugugeyuyinyingyongchengxude。tashuo,youyusuoyoufanzhongdechulirenwudoushiyougugefuwuqizaiwangluoshangchulide,womenjianshaolezhangshangshebeijisuannenglidexianzhi。
目前的應用程序
手shou機ji語yu音yin識shi別bie技ji術shu目mu前qian的de狀zhuang態tai不bu僅jin僅jin局ju限xian於yu語yu音yin撥bo號hao。語yu音yin啟qi動dong的de功gong能neng實shi際ji上shang就jiu包bao括kuo語yu音yin撥bo號hao。這zhe是shi手shou機ji上shang出chu現xian的de第di一yi個ge語yu音yin識shi別bie功gong能neng。目mu前qian,甚shen至zhi許xu多duo低di端duan手shou機ji都dou有you這zhe個ge功gong能neng,盡jin管guan這zhe個ge功gong能neng處chu理li手shou機ji電dian話hua簿bu中zhong一yi些xie不bu常chang用yong的de名ming字zi的de時shi稍shao差cha一yi些xie。
Gartner分析師Nguyen指zhi出chu,比bi較jiao新xin的de一yi代dai語yu音yin功gong能neng是shi更geng開kai放fang的de。不bu用yong編bian程cheng執zhi行xing某mou些xie功gong能neng的de具ju體ti的de語yu音yin指zhi令ling,應ying用yong程cheng序xu可ke識shi別bie語yu音yin並bing且qie執zhi行xing適shi當dang的de行xing動dong。更geng高gao端duan的de、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。
穀gu歌ge語yu音yin搜sou索suo擁yong有you比bi以yi前qian的de語yu音yin識shi別bie技ji術shu更geng少shao的de限xian製zhi,因yin為wei所suo有you的de繁fan重zhong任ren務wu都dou是shi由you網wang絡luo服fu務wu器qi完wan成cheng的de。這zhe使shi穀gu歌ge語yu音yin搜sou索suo等deng語yu音yin驅qu動dong的de應ying用yong程cheng序xu更geng可ke行xing。例li如ru,如ru果guo你ni說shuo“創戰紀電影時間”,你會看到一個網頁列出地區編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網站(上映時間)的信息。
這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞彙的差別。如果我說“摩特裏褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞彙方便使用這個樂隊的獨特的拚寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。
這(zhe)就(jiu)是(shi)說(shuo)穀(gu)歌(ge)語(yu)音(yin)識(shi)別(bie)的(de)限(xian)製(zhi)明(ming)顯(xian)地(di)表(biao)明(ming)將(jiang)使(shi)你(ni)進(jin)一(yi)步(bu)脫(tuo)離(li)主(zhu)流(liu)的(de)英(ying)語(yu)。外(wai)國(guo)人(ren)的(de)名(ming)字(zi)是(shi)沒(mei)有(you)幫(bang)助(zhu)的(de)。語(yu)音(yin)識(shi)別(bie)應(ying)用(yong)程(cheng)序(xu)的(de)另(ling)一(yi)個(ge)問(wen)題(ti)是(shi)環(huan)境(jing)的(de)噪(zao)音(yin)。移(yi)動(dong)用(yong)戶(hu)受(shou)環(huan)境(jing)噪(zao)音(yin)的(de)影(ying)響(xiang)通(tong)常(chang)比(bi)台(tai)式(shi)電(dian)腦(nao)用(yong)戶(hu)多(duo)。Nuance公司的Revis稱,在充滿噪音的戶外環境中,語音識別的準確性是一個問題。
自從2005年三星的那款手機推出以來,聽寫功能已經取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內容。用於電子郵件的Dragon軟件為黑莓設備提供了類似的功能。
對於Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發短信。
文本之間的翻譯目前已經推出多年(如通過知名的Babel Fish網站進行翻譯)。同聲翻譯功能現在還沒有,不過,這種軟件很快會推出。例如,用於iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向
詢問參加開發語音技術的每一個人下一個巨大的步驟是什麼。他們一般會給你一個答案:自然語言處理。
Revis把(ba)它(ta)解(jie)釋(shi)為(wei)理(li)解(jie)你(ni)的(de)意(yi)思(si)的(de)係(xi)統(tong),它(ta)不(bu)僅(jin)僅(jin)知(zhi)道(dao)你(ni)說(shuo)什(shen)麼(me)。在(zai)會(hui)話(hua)式(shi)的(de)互(hu)動(dong)模(mo)式(shi)中(zhong),用(yong)戶(hu)說(shuo)自(zi)己(ji)要(yao)說(shuo)的(de)話(hua),沒(mei)有(you)限(xian)製(zhi)用(yong)戶(hu)如(ru)何(he)說(shuo)這(zhe)個(ge)話(hua)。他(ta)提(ti)供(gong)了(le)指(zhi)令(ling)或(huo)者(zhe)要(yao)求(qiu)得(de)到(dao)信(xin)息(xi)的(de)例(li)子(zi),如(ru)“我在什麼地方能夠買到100美元以下的尼康照相機?”或者“給傑尼發個短信說我晚到20分鍾”或者“今天晚上在Morton''''s訂三個人的地方”。
穀歌的Mane稱cheng,在zai口kou語yu對dui話hua中zhong提ti供gong自zi然ran的de語yu言yan處chu理li是shi一yi個ge雙shuang重zhong挑tiao戰zhan。首shou先xian,你ni必bi須xu識shi別bie這zhe些xie單dan詞ci,然ran後hou,你ni必bi須xu理li解jie這zhe個ge意yi思si。第di一yi部bu分fen變bian得de更geng加jia容rong易yi了le。但dan是shi,第di二er部bu分fen仍reng然ran很hen難nan解jie決jue:意思是根據上下文確定的和難以應付的,人類做的語法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(如羅盤或者GPS)能夠增強自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數據把這個任務分開,如使用日曆、飯店排名、電影評論和位置等數據。
此外,手機的服務能夠用於提供講話的環境。Rele表biao示shi,用yong戶hu的de語yu音yin輸shu入ru以yi及ji從cong其qi它ta有you關guan用yong戶hu及ji用yong戶hu環huan境jing的de傳chuan感gan器qi和he狀zhuang態tai獲huo得de的de智zhi能neng信xin息xi可ke以yi提ti供gong更geng豐feng富fu的de和he更geng相xiang關guan的de結jie果guo。例li如ru,如ru果guo你ni剛gang剛gang使shi用yongFoursquare網站查看有關飯店,一些含糊的語音指令就會傾向於外出吃飯、訂膳宿和要一輛出租車等事情。
多平台應用程序Vlingo自稱是“虛擬助手”,已經能夠提供這些方麵的功能。這個軟件插入到OpenTable和Fandango等服務中以完成許多任務:訂飯店、訂電影票等等。
Nguyen認為未來語音識別技術改善的另一個領域是遊戲。他說,在遊戲中可以使用語音以增加玩遊戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經應用的另一個功能是自動地把語音識別適用於單個用戶。這是台式電腦語音識別技術所要求的免提版語音訓練。
例如,最新版本的穀歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調方麵畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。
然而,個性化識別並不是一個能夠解決一切問題的技術,它隻是實現語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因為還會有更多的一係列的技術創新。Mane認為,這種技術未來的改進需要我們的用戶更積極的參與。
結論
手shou機ji一yi直zhi是shi許xu多duo技ji術shu的de孵fu化hua器qi和he推tui動dong因yin素su,這zhe包bao括kuo硬ying件jian和he軟ruan件jian技ji術shu。到dao目mu前qian為wei止zhi,在zai這zhe個ge組zu合he中zhong增zeng加jia語yu音yin功gong能neng僅jin產chan生sheng了le逐zhu步bu的de改gai善shan,穀gu歌ge語yu音yin應ying用yong程cheng序xu的de很hen好hao的de功gong能neng。
但(dan)是(shi),這(zhe)些(xie)改(gai)進(jin)正(zheng)逐(zhu)步(bu)地(di)為(wei)更(geng)重(zhong)要(yao)的(de)進(jin)步(bu)鋪(pu)平(ping)道(dao)路(lu)。移(yi)動(dong)技(ji)術(shu)為(wei)如(ru)何(he)聚(ju)集(ji)這(zhe)些(xie)新(xin)技(ji)術(shu)提(ti)供(gong)了(le)一(yi)個(ge)全(quan)新(xin)的(de)舞(wu)台(tai)。下(xia)一(yi)步(bu)也(ye)許(xu)不(bu)是(shi)一(yi)個(ge)理(li)解(jie)你(ni)說(shuo)的(de)一(yi)切(qie)事(shi)情(qing)的(de)手(shou)機(ji),而(er)是(shi)能(neng)夠(gou)充(chong)分(fen)理(li)解(jie)你(ni)說(shuo)的(de)事(shi)情(qing)的(de)一(yi)個(ge)更(geng)有(you)用(yong)的(de)手(shou)機(ji)。
- 學習智能手機的超性能語音識別技術
- 手機提供的羅盤或者GPS能夠增強自然語言處理的有用性
- 在移動設備方麵設計
- 硬件和軟件技術
當語音識別技術應用到計算機桌麵的時候,這看起來似乎是一個好主意。但是,對於大多數人來說,語音識別還不能取代鍵盤和鼠標。現在,語音技術正用於一個全新的環境:shouji。yuyinshibiejishuzaishoujizhongdeyingyongjiangjinyibutuidongzhezhongjishuxiangxindefangxiangfazhanheyingyong。zheshiyuyinshibiejishuzaitaishidiannaoyingyongzhongconglaimeiyoushezudefangxiang。
IBM今年將紀念其創建100周年。IBM在60年代初期創建了一個名為“Shoebox”的試驗性的語音識別係統。這個係統解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現的,當時主要是由於好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞並且能夠回答簡單的數學問題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictate可(ke)能(neng)是(shi)第(di)一(yi)個(ge)語(yu)音(yin)識(shi)別(bie)應(ying)用(yong)程(cheng)序(xu)。這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)隻(zhi)能(neng)識(shi)別(bie)單(dan)個(ge)單(dan)詞(ci),每(mei)次(ci)隻(zhi)說(shuo)一(yi)個(ge)單(dan)詞(ci)。隨(sui)著(zhe)時(shi)間(jian)的(de)推(tui)移(yi),這(zhe)個(ge)應(ying)用(yong)程(cheng)序(xu)已(yi)經(jing)發(fa)展(zhan)成(cheng)為(wei)名(ming)為(wei)“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。
yuyinshibiejishuzaitaishidiannaozhongdeyingyongyoulianggezhiyueyinsu。diyi,weileshizhegeyingyongchengxuyigenggaodezhunquexinggongzuo,zhegeyingyongchengxubixuyaojinxingxunlianyibianshibieyonghudeyuyintezheng。Windows Vista和Windows 7操作係統中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產品仍然都需要一個用戶訓練期才能使用。
第二個製約因素是鍵盤的流行程度。大多數人已經習慣於鍵盤打字而不是講話,因此,語音控製麵臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足並且工作的很好的時候,為什麼要學習使用Dvorak鍵盤呢?
微軟TellMe團隊是負責為多媒體環境開發語音識別技術的部門。TellMe團隊高級產品經理Abhi Rele指出,在台式電腦環境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。
語音控製的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。手機正是很長時間以來一直在增長的這種地方。
Nuance負責產品管理和營銷的副總裁Matt Revis解釋說,台式電腦和移動環境的區別是這樣的:台式電腦是一個固定的環境,重點完全在於台式電腦的使用情況。因此,台式電腦的語音技術主要執行如下任務:支持辦公應用程序、網絡瀏覽、通訊等。在移動方麵,語音更多地用於支持各種生活方式方麵:移動中的專業人員、戶外的有趣活動、免提電話等等。
Gartner分析師Tuong Nguyen讚同這個觀點:語音在移動環境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。
Nguyen補(bu)充(chong)說(shuo),如(ru)果(guo)不(bu)用(yong)語(yu)音(yin)技(ji)術(shu)說(shuo)出(chu)一(yi)個(ge)簡(jian)單(dan)的(de)說(shuo)明(ming)語(yu)句(ju),而(er)是(shi)翻(fan)動(dong)許(xu)多(duo)菜(cai)單(dan)或(huo)者(zhe)努(nu)力(li)地(di)在(zai)小(xiao)顯(xian)示(shi)屏(ping)鍵(jian)盤(pan)上(shang)進(jin)行(xing)輸(shu)入(ru),語(yu)音(yin)識(shi)別(bie)的(de)價(jia)值(zhi)就(jiu)顯(xian)現(xian)出(chu)來(lai)了(le)。隨(sui)著(zhe)觸(chu)摸(mo)屏(ping)設(she)備(bei)(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數據輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設備方麵
因為移動設備一般僅支持台式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現在手機中。
語音處理Springer手冊解釋了手機在2000niandaichudeqingkuang。jinguannashihaiyouyixiejuxianxing,danshi,shoujijingguobianchengzhihounenggoushibiezhugeshuzidebohaoyuyin,zaimouzhongchengdushanghainengshibierendemingzi。zhuyaowentishineicun,yinci,daduoshushoujiyicizhinengshibie10個數字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方麵的營銷很糟糕。
隨著手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限製。
另ling一yi個ge關guan鍵jian的de進jin步bu是shi網wang絡luo速su度du。速su度du更geng快kuai的de無wu線xian網wang絡luo浪lang潮chao抬tai高gao了le許xu多duo大da船chuan,包bao括kuo最zui新xin一yi代dai的de語yu音yin處chu理li技ji術shu。速su度du更geng快kuai的de網wang絡luo能neng夠gou把ba語yu音yin處chu理li任ren務wu從cong網wang絡luo遷qian移yi到dao遠yuan程cheng服fu務wu器qi。
穀歌語音搜索產品經理Amir Manejieshilesudugengkuaidewangluoshiruhebangzhugugeyuyinyingyongchengxude。tashuo,youyusuoyoufanzhongdechulirenwudoushiyougugefuwuqizaiwangluoshangchulide,womenjianshaolezhangshangshebeijisuannenglidexianzhi。
目前的應用程序
手shou機ji語yu音yin識shi別bie技ji術shu目mu前qian的de狀zhuang態tai不bu僅jin僅jin局ju限xian於yu語yu音yin撥bo號hao。語yu音yin啟qi動dong的de功gong能neng實shi際ji上shang就jiu包bao括kuo語yu音yin撥bo號hao。這zhe是shi手shou機ji上shang出chu現xian的de第di一yi個ge語yu音yin識shi別bie功gong能neng。目mu前qian,甚shen至zhi許xu多duo低di端duan手shou機ji都dou有you這zhe個ge功gong能neng,盡jin管guan這zhe個ge功gong能neng處chu理li手shou機ji電dian話hua簿bu中zhong一yi些xie不bu常chang用yong的de名ming字zi的de時shi稍shao差cha一yi些xie。
Gartner分析師Nguyen指zhi出chu,比bi較jiao新xin的de一yi代dai語yu音yin功gong能neng是shi更geng開kai放fang的de。不bu用yong編bian程cheng執zhi行xing某mou些xie功gong能neng的de具ju體ti的de語yu音yin指zhi令ling,應ying用yong程cheng序xu可ke識shi別bie語yu音yin並bing且qie執zhi行xing適shi當dang的de行xing動dong。更geng高gao端duan的de、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。
穀gu歌ge語yu音yin搜sou索suo擁yong有you比bi以yi前qian的de語yu音yin識shi別bie技ji術shu更geng少shao的de限xian製zhi,因yin為wei所suo有you的de繁fan重zhong任ren務wu都dou是shi由you網wang絡luo服fu務wu器qi完wan成cheng的de。這zhe使shi穀gu歌ge語yu音yin搜sou索suo等deng語yu音yin驅qu動dong的de應ying用yong程cheng序xu更geng可ke行xing。例li如ru,如ru果guo你ni說shuo“創戰紀電影時間”,你會看到一個網頁列出地區編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網站(上映時間)的信息。
這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞彙的差別。如果我說“摩特裏褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞彙方便使用這個樂隊的獨特的拚寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。
這(zhe)就(jiu)是(shi)說(shuo)穀(gu)歌(ge)語(yu)音(yin)識(shi)別(bie)的(de)限(xian)製(zhi)明(ming)顯(xian)地(di)表(biao)明(ming)將(jiang)使(shi)你(ni)進(jin)一(yi)步(bu)脫(tuo)離(li)主(zhu)流(liu)的(de)英(ying)語(yu)。外(wai)國(guo)人(ren)的(de)名(ming)字(zi)是(shi)沒(mei)有(you)幫(bang)助(zhu)的(de)。語(yu)音(yin)識(shi)別(bie)應(ying)用(yong)程(cheng)序(xu)的(de)另(ling)一(yi)個(ge)問(wen)題(ti)是(shi)環(huan)境(jing)的(de)噪(zao)音(yin)。移(yi)動(dong)用(yong)戶(hu)受(shou)環(huan)境(jing)噪(zao)音(yin)的(de)影(ying)響(xiang)通(tong)常(chang)比(bi)台(tai)式(shi)電(dian)腦(nao)用(yong)戶(hu)多(duo)。Nuance公司的Revis稱,在充滿噪音的戶外環境中,語音識別的準確性是一個問題。
自從2005年三星的那款手機推出以來,聽寫功能已經取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內容。用於電子郵件的Dragon軟件為黑莓設備提供了類似的功能。
對於Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發短信。
文本之間的翻譯目前已經推出多年(如通過知名的Babel Fish網站進行翻譯)。同聲翻譯功能現在還沒有,不過,這種軟件很快會推出。例如,用於iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向
詢問參加開發語音技術的每一個人下一個巨大的步驟是什麼。他們一般會給你一個答案:自然語言處理。
Revis把(ba)它(ta)解(jie)釋(shi)為(wei)理(li)解(jie)你(ni)的(de)意(yi)思(si)的(de)係(xi)統(tong),它(ta)不(bu)僅(jin)僅(jin)知(zhi)道(dao)你(ni)說(shuo)什(shen)麼(me)。在(zai)會(hui)話(hua)式(shi)的(de)互(hu)動(dong)模(mo)式(shi)中(zhong),用(yong)戶(hu)說(shuo)自(zi)己(ji)要(yao)說(shuo)的(de)話(hua),沒(mei)有(you)限(xian)製(zhi)用(yong)戶(hu)如(ru)何(he)說(shuo)這(zhe)個(ge)話(hua)。他(ta)提(ti)供(gong)了(le)指(zhi)令(ling)或(huo)者(zhe)要(yao)求(qiu)得(de)到(dao)信(xin)息(xi)的(de)例(li)子(zi),如(ru)“我在什麼地方能夠買到100美元以下的尼康照相機?”或者“給傑尼發個短信說我晚到20分鍾”或者“今天晚上在Morton''''s訂三個人的地方”。
穀歌的Mane稱cheng,在zai口kou語yu對dui話hua中zhong提ti供gong自zi然ran的de語yu言yan處chu理li是shi一yi個ge雙shuang重zhong挑tiao戰zhan。首shou先xian,你ni必bi須xu識shi別bie這zhe些xie單dan詞ci,然ran後hou,你ni必bi須xu理li解jie這zhe個ge意yi思si。第di一yi部bu分fen變bian得de更geng加jia容rong易yi了le。但dan是shi,第di二er部bu分fen仍reng然ran很hen難nan解jie決jue:意思是根據上下文確定的和難以應付的,人類做的語法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(如羅盤或者GPS)能夠增強自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數據把這個任務分開,如使用日曆、飯店排名、電影評論和位置等數據。
此外,手機的服務能夠用於提供講話的環境。Rele表biao示shi,用yong戶hu的de語yu音yin輸shu入ru以yi及ji從cong其qi它ta有you關guan用yong戶hu及ji用yong戶hu環huan境jing的de傳chuan感gan器qi和he狀zhuang態tai獲huo得de的de智zhi能neng信xin息xi可ke以yi提ti供gong更geng豐feng富fu的de和he更geng相xiang關guan的de結jie果guo。例li如ru,如ru果guo你ni剛gang剛gang使shi用yongFoursquare網站查看有關飯店,一些含糊的語音指令就會傾向於外出吃飯、訂膳宿和要一輛出租車等事情。
多平台應用程序Vlingo自稱是“虛擬助手”,已經能夠提供這些方麵的功能。這個軟件插入到OpenTable和Fandango等服務中以完成許多任務:訂飯店、訂電影票等等。
Nguyen認為未來語音識別技術改善的另一個領域是遊戲。他說,在遊戲中可以使用語音以增加玩遊戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經應用的另一個功能是自動地把語音識別適用於單個用戶。這是台式電腦語音識別技術所要求的免提版語音訓練。
例如,最新版本的穀歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調方麵畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。
然而,個性化識別並不是一個能夠解決一切問題的技術,它隻是實現語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因為還會有更多的一係列的技術創新。Mane認為,這種技術未來的改進需要我們的用戶更積極的參與。
結論
手shou機ji一yi直zhi是shi許xu多duo技ji術shu的de孵fu化hua器qi和he推tui動dong因yin素su,這zhe包bao括kuo硬ying件jian和he軟ruan件jian技ji術shu。到dao目mu前qian為wei止zhi,在zai這zhe個ge組zu合he中zhong增zeng加jia語yu音yin功gong能neng僅jin產chan生sheng了le逐zhu步bu的de改gai善shan,穀gu歌ge語yu音yin應ying用yong程cheng序xu的de很hen好hao的de功gong能neng。
但(dan)是(shi),這(zhe)些(xie)改(gai)進(jin)正(zheng)逐(zhu)步(bu)地(di)為(wei)更(geng)重(zhong)要(yao)的(de)進(jin)步(bu)鋪(pu)平(ping)道(dao)路(lu)。移(yi)動(dong)技(ji)術(shu)為(wei)如(ru)何(he)聚(ju)集(ji)這(zhe)些(xie)新(xin)技(ji)術(shu)提(ti)供(gong)了(le)一(yi)個(ge)全(quan)新(xin)的(de)舞(wu)台(tai)。下(xia)一(yi)步(bu)也(ye)許(xu)不(bu)是(shi)一(yi)個(ge)理(li)解(jie)你(ni)說(shuo)的(de)一(yi)切(qie)事(shi)情(qing)的(de)手(shou)機(ji),而(er)是(shi)能(neng)夠(gou)充(chong)分(fen)理(li)解(jie)你(ni)說(shuo)的(de)事(shi)情(qing)的(de)一(yi)個(ge)更(geng)有(you)用(yong)的(de)手(shou)機(ji)。
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 算力爆發遇上電源革新,大聯大世平集團攜手晶豐明源線上研討會解鎖應用落地
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
微波功率管
微波開關
微波連接器
微波器件
微波三極管
微波振蕩器
微電機
微調電容
微動開關
微蜂窩
位置傳感器
溫度保險絲
溫度傳感器
溫控開關
溫控可控矽
聞泰
穩壓電源
穩壓二極管
穩壓管
無焊端子
無線充電
無線監控
無源濾波器
五金工具
物聯網
顯示模塊
顯微鏡結構
線圈
線繞電位器
線繞電阻




