六種方法解決LSTM循環神經網絡中的超長序列問題
發布時間:2017-06-27 來源:Jason Brownlee 責任編輯:wenwei
【導讀】長短期記憶(LSTM)循環神經網絡可以學習和記憶長段序列的輸入。如果你的問題對於每個輸入都有一個輸出(如時間序列預測和文本翻譯任務),那麼 LSTM 可以運行得很好。但 LSTM 在麵臨超長輸入序列——單個或少量輸出的情形時就會遇到困難了。這種問題通常被稱為序列標記,或序列分類。
其中的一些例子包括:
包含數千個單詞的文本內容情緒分類(自然語言處理)。
分類數千個時間步長的腦電圖數據(醫療領域)。
分類數千個 DNA 堿基對的編碼/非編碼基因序列(基因信息學)。
當使用循環神經網絡(如 LSTM)時,這些所謂的序列分類任務需要特殊處理。在這篇文章中,你將發現 6 種處理長序列的方法。
1. 原封不動
原封不動地訓練/輸(shu)入(ru),這(zhe)或(huo)許(xu)會(hui)導(dao)致(zhi)訓(xun)練(lian)時(shi)間(jian)大(da)大(da)增(zeng)長(chang)。另(ling)外(wai),嚐(chang)試(shi)在(zai)很(hen)長(chang)的(de)序(xu)列(lie)裏(li)進(jin)行(xing)反(fan)向(xiang)傳(chuan)播(bo)可(ke)能(neng)會(hui)導(dao)致(zhi)梯(ti)度(du)消(xiao)失(shi),反(fan)過(guo)來(lai)會(hui)削(xue)弱(ruo)模(mo)型(xing)的(de)可(ke)靠(kao)性(xing)。在(zai)大(da)型(xing) LSTM 模型中,步長通常會被限製在 250-500 之間。
2. 截斷序列
處(chu)理(li)非(fei)常(chang)長(chang)的(de)序(xu)列(lie)時(shi),最(zui)直(zhi)觀(guan)的(de)方(fang)式(shi)就(jiu)是(shi)截(jie)斷(duan)它(ta)們(men)。這(zhe)可(ke)以(yi)通(tong)過(guo)在(zai)開(kai)始(shi)或(huo)結(jie)束(shu)輸(shu)入(ru)序(xu)列(lie)時(shi)選(xuan)擇(ze)性(xing)地(di)刪(shan)除(chu)一(yi)些(xie)時(shi)間(jian)步(bu)來(lai)完(wan)成(cheng)。這(zhe)種(zhong)方(fang)式(shi)通(tong)過(guo)失(shi)去(qu)部(bu)分(fen)數(shu)據(ju)的(de)代(dai)價(jia)來(lai)讓(rang)序(xu)列(lie)縮(suo)短(duan)到(dao)可(ke)以(yi)控(kong)製(zhi)的(de)長(chang)度(du),而(er)風(feng)險(xian)也(ye)顯(xian)而(er)易(yi)見(jian):部分對於準確預測有利的數據可能會在這個過程中丟失。
3. 總結序列
在(zai)某(mou)些(xie)領(ling)域(yu)中(zhong),我(wo)們(men)可(ke)以(yi)嚐(chang)試(shi)總(zong)結(jie)輸(shu)入(ru)序(xu)列(lie)的(de)內(nei)容(rong)。例(li)如(ru),在(zai)輸(shu)入(ru)序(xu)列(lie)為(wei)文(wen)字(zi)的(de)時(shi)候(hou),我(wo)們(men)可(ke)以(yi)刪(shan)除(chu)所(suo)有(you)低(di)於(yu)指(zhi)定(ding)字(zi)頻(pin)的(de)文(wen)字(zi)。我(wo)們(men)也(ye)可(ke)以(yi)僅(jin)保(bao)留(liu)整(zheng)個(ge)訓(xun)練(lian)數(shu)據(ju)集(ji)中(zhong)超(chao)過(guo)某(mou)個(ge)指(zhi)定(ding)值(zhi)的(de)文(wen)字(zi)。總(zong)結(jie)可(ke)以(yi)使(shi)得(de)係(xi)統(tong)專(zhuan)注(zhu)於(yu)相(xiang)關(guan)性(xing)最(zui)高(gao)的(de)問(wen)題(ti),同(tong)時(shi)縮(suo)短(duan)了(le)輸(shu)入(ru)序(xu)列(lie)的(de)長(chang)度(du)。
4. 隨機取樣
相(xiang)對(dui)更(geng)不(bu)係(xi)統(tong)的(de)總(zong)結(jie)序(xu)列(lie)方(fang)式(shi)就(jiu)是(shi)隨(sui)機(ji)取(qu)樣(yang)了(le)。我(wo)們(men)可(ke)以(yi)在(zai)序(xu)列(lie)中(zhong)隨(sui)機(ji)選(xuan)擇(ze)時(shi)間(jian)步(bu)長(chang)並(bing)刪(shan)除(chu)它(ta)們(men),從(cong)而(er)將(jiang)序(xu)列(lie)縮(suo)短(duan)至(zhi)指(zhi)定(ding)長(chang)度(du)。我(wo)們(men)也(ye)可(ke)以(yi)指(zhi)定(ding)總(zong)長(chang)的(de)選(xuan)擇(ze)隨(sui)機(ji)連(lian)續(xu)子(zi)序(xu)列(lie),從(cong)而(er)兼(jian)顧(gu)重(zhong)疊(die)或(huo)非(fei)重(zhong)疊(die)內(nei)容(rong)。
zaiquefaxitongsuoduanxuliechangdudefangshishi,zhezhongfangfakeyizouxiao。zhezhongfangfayekeyiyongyushujukuochong,chuangzaohenduokenengbutongdeshuruxulie。dangkeyongdeshujuyouxianshi,zhezhongfangfakeyitishengmoxingdelubangxing。
5. 時間截斷的反向傳播
除基於整個序列更新模型的方法之外,我們還可以在最後的數個時間步中估計梯度。這種方法被稱為「時間截斷的反向傳播(TBPTT)」。它可以顯著加速循環神經網絡(如 LSTM)長序列學習的過程。
這將允許所有輸入並執行的序列向前傳遞,但僅有最後數十或數百時間步會被估計梯度,並用於權重更新。一些最新的 LSTM 應用允許我們指定用於更新的時間步數,分離出一部分輸入序列以供使用。例如:
Theano 中的「truncate_gradient」參數:deeplearning
6. 使用編碼器-解碼器架構

你ni可ke以yi使shi用yong自zi編bian碼ma器qi來lai讓rang長chang序xu列lie表biao示shi為wei新xin長chang度du,然ran後hou解jie碼ma網wang絡luo將jiang編bian碼ma表biao示shi解jie釋shi為wei所suo需xu輸shu出chu。這zhe可ke以yi是shi讓rang無wu監jian督du自zi編bian碼ma器qi成cheng為wei序xu列lie上shang的de預yu處chu理li傳chuan遞di者zhe,或huo近jin期qi用yong於yu神shen經jing語yu言yan翻fan譯yi的de編bian碼ma器qi-解碼器 LSTM 網絡。
當(dang)然(ran),目(mu)前(qian)機(ji)器(qi)學(xue)習(xi)係(xi)統(tong)從(cong)超(chao)長(chang)序(xu)列(lie)中(zhong)學(xue)習(xi)或(huo)許(xu)仍(reng)然(ran)非(fei)常(chang)困(kun)難(nan),但(dan)通(tong)過(guo)複(fu)雜(za)的(de)架(jia)構(gou)和(he)以(yi)上(shang)一(yi)種(zhong)或(huo)幾(ji)種(zhong)方(fang)法(fa)的(de)結(jie)合(he),我(wo)們(men)是(shi)可(ke)以(yi)找(zhao)到(dao)辦(ban)法(fa)解(jie)決(jue)這(zhe)些(xie)問(wen)題(ti)的(de)。
其他瘋狂的想法
這裏還有一些未被充分驗證過的想法可供參考。
將輸入序列拆分為多個固定長度的子序列,並構建一種模型,將每個子序列作為單獨的特征(例如並行輸入序列)進行訓練。
雙向 LSTM,其中每個 LSTM 單元對的一部分處理輸入序列的一半,在輸出至層外時組合。這種方法可以將序列分為兩塊或多塊處理。
我們還可以探索序列感知編碼方法、投影法甚至哈希算法來將時間步的數量減少到指定長度。
推薦閱讀:
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 算力爆發遇上電源革新,大聯大世平集團攜手晶豐明源線上研討會解鎖應用落地
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索





