新手必備:音頻基礎知識彙總
發布時間:2017-02-15 責任編輯:sherry
【導讀】自然界中的聲音非常複雜,波形極其複雜,通常我們采用脈衝編碼碼調製編碼,即PCM編碼。PCM編碼通過抽樣、量化、編碼三個步驟將連續變化的模擬信號轉換為數字信號。本文就主要給大家介紹下音頻基礎知識,剛入門的小童鞋可以來學習下。
采樣(sample)
數碼音頻係統是通過將聲波波形轉換成一連串的二進製數據來再現原始聲音的(原始聲音是模擬信號),實現這個步驟使用的設備是模/數轉換器(A/D轉換器,或者ADC,或者analog to digital convert)。tayimeimiaoshangwancidesulvduishengbojinxingcaiyang,meiyicicaiyangdoujiluxialeyuanshimonishengbozaimouyishikedezhuangtai,chengzhiweiyangben。jiangyichuandeyangbenlianjieqilai,jiukeyimiaoshuyiduanshengbole,bameiyimiaozhongsuocaiyangdeshumuchengweicaiyangpinlvhuocailv,danweiweiHZ(赫茲)。采樣頻率越高所能描述的聲波頻率就越高。采樣率決定聲音頻率的範圍(相當於音調),可以用數字波形表示。以波形表示的頻率範圍通常被稱為帶寬。要正確理解音頻采樣可以分為采樣的位數和采樣的頻率。
采樣位數(采樣精度)
電腦中的聲音文件是用數字0和1來(lai)表(biao)示(shi)的(de)。所(suo)以(yi)在(zai)電(dian)腦(nao)上(shang)錄(lu)音(yin)的(de)本(ben)質(zhi)就(jiu)是(shi)把(ba)模(mo)擬(ni)聲(sheng)音(yin)信(xin)號(hao)轉(zhuan)換(huan)成(cheng)數(shu)字(zi)信(xin)號(hao)。反(fan)之(zhi),在(zai)播(bo)放(fang)時(shi)則(ze)是(shi)把(ba)數(shu)字(zi)信(xin)號(hao)還(hai)原(yuan)成(cheng)模(mo)擬(ni)聲(sheng)音(yin)信(xin)號(hao)輸(shu)出(chu)。采(cai)樣(yang)位(wei)數(shu)可(ke)以(yi)理(li)解(jie)為(wei)采(cai)集(ji)卡(ka)處(chu)理(li)聲(sheng)音(yin)的(de)解(jie)析(xi)度(du)。這(zhe)個(ge)數(shu)值(zhi)越(yue)大(da),解(jie)析(xi)度(du)就(jiu)越(yue)高(gao),錄(lu)製(zhi)和(he)回(hui)放(fang)的(de)聲(sheng)音(yin)就(jiu)越(yue)真(zhen)實(shi)。采(cai)集(ji)卡(ka)的(de)位(wei)是(shi)指(zhi)采(cai)集(ji)卡(ka)在(zai)采(cai)集(ji)和(he)播(bo)放(fang)聲(sheng)音(yin)文(wen)件(jian)時(shi)所(suo)使(shi)用(yong)數(shu)字(zi)聲(sheng)音(yin)信(xin)號(hao)的(de)二(er)進(jin)製(zhi)位(wei)數(shu)。采(cai)集(ji)卡(ka)的(de)位(wei)客(ke)觀(guan)地(di)反(fan)映(ying)了(le)數(shu)字(zi)聲(sheng)音(yin)信(xin)號(hao)對(dui)輸(shu)入(ru)聲(sheng)音(yin)信(xin)號(hao)描(miao)述(shu)的(de)準(zhun)確(que)程(cheng)度(du)。8位代表2的8次方--256,16 位則代表2的16次方--64K。
采樣率(sample rate)
單位時間內對媒體對象的采樣次數,單位Hz。采(cai)樣(yang)頻(pin)率(lv)是(shi)指(zhi)錄(lu)音(yin)設(she)備(bei)在(zai)一(yi)秒(miao)鍾(zhong)內(nei)對(dui)聲(sheng)音(yin)信(xin)號(hao)的(de)采(cai)樣(yang)次(ci)數(shu),采(cai)樣(yang)頻(pin)率(lv)越(yue)高(gao)聲(sheng)音(yin)的(de)還(hai)原(yuan)就(jiu)越(yue)真(zhen)實(shi)越(yue)自(zi)然(ran)。在(zai)當(dang)今(jin)的(de)主(zhu)流(liu)采(cai)集(ji)卡(ka)上(shang),采(cai)樣(yang)頻(pin)率(lv)一(yi)般(ban)共(gong)分(fen)為(wei) 22.05KHz、44.1KHz(44100Hz)、48KHz三個等級,22.05 KHz隻能達到FM廣播的聲音品質,44.1KHz則是理論上的CD音質界限,48KHz則更加精確一些。對於高於48KHz的采樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價值。

5kHz的采樣率僅能達到人們講話的聲音質量。
11kHz的采樣率是播放小段聲音的最低標準,是CD音質的四分之一。
22kHz采樣率的聲音可以達到CD音質的一半,目前大多數網站都選用這樣的采樣率。
44kHz的采樣率是標準的CD音質,可以達到很好的聽覺效果。
通道數(channel)
分為單聲道mono;立體聲stereo。當然還存在更多的通道數。舉個列子,聲道多,效果好,兩個聲道,說明隻有左右兩邊有聲音傳過來, 四聲道,說明前後左右都有聲音傳過來
比特率(bitrate)
也叫碼率。針對編碼格式,表示壓縮編碼後每秒的音頻數據量大小。計算公式:比特率 = 采樣率 x 采樣精度 x 聲道數。單位kbps,這裏的k為1000
VBR、ABR、CBR
VBR(Variable Bitrate)動態比特率。也就是沒有固定的比特率,壓縮軟件在壓縮時根據音頻數據即時確定使用什麼比特率。這是Xing發展的算法,他們將一首歌的複雜部分用高Bitrate編碼,簡單部分用低Bitrate編碼。主意雖然不錯,可惜Xing編碼器的VBR算法很差,音質與CBR相去甚遠。幸運的是, Lame完美地優化了VBR算法,使之成為MP3的最佳編碼模式。這是以質量為前提兼顧文件大小的方式時推薦的編碼模式。
ABR(Average Bitrate)平均比特率,是VBR的一種插值參數。Lame針對CBR不佳的文件體積比和VBR生成文件大小不定的特點獨創了這種編碼模式。ABR也被稱為“Safe VBR”,它是在指定的平均Bitrate內,以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對低的流量,高頻和大動態表現時使用高流量。舉例來說,當指定用192kbps ABR對一段wav文件進行編碼時,Lame會將該文件的85%用192kbps固定編碼,然後對剩餘15%進行動態優化:複雜部分用高於192kbps 來編碼、簡單部分用低於192kbps來編碼。與192kbps CBR相比,192kbps ABR在文件大小上相差不多,音質卻提高不少。ABR編碼在速度上是VBR編碼的2到3倍,在128-256kbps範圍內質量要好於CBR。可以做為 VBR和CBR的一種折衷選擇。
CBR(Constant Bitrate),常數比特率,指文件從頭到尾都是一種位速率。相對於VBR和ABR來講,它壓縮出來的文件體積很大,但音質卻不會有明顯的提高。
有損和無損
根據采樣和量化的過程可知,音頻編碼最多隻能做到無限接近 自然界的信號 ,至少目前的技術還不可能將其完全一樣。這是因為自然界的信號是連續的,而音頻編碼後的 值 是離散的。因此,任何數字音頻編碼方案都是有損的,這也就意味著任何的音頻都不可能完全還原出自然界的聲音。
在計算機應用中, PCM編碼 能夠達到最高保真水平。它已經被廣泛地應用於素材保存及音樂欣賞,包括CD、DVD以及 WAV文件等等。因此,PCM約定俗成了無損編碼,但是這並不意味著PCM就能夠確保信號絕對保真,PCM也隻能做到最大程度的無限接近。
我們習慣性地把MP3列入有損音頻編碼範疇,這是相對PCM編碼的。
強(qiang)調(tiao)編(bian)碼(ma)的(de)相(xiang)對(dui)性(xing)的(de)有(you)損(sun)和(he)無(wu)損(sun),要(yao)做(zuo)到(dao)真(zhen)正(zheng)的(de)無(wu)損(sun)是(shi)非(fei)常(chang)困(kun)難(nan),甚(shen)至(zhi)是(shi)不(bu)可(ke)能(neng)的(de)。就(jiu)如(ru)同(tong),我(wo)們(men)用(yong)小(xiao)數(shu)去(qu)表(biao)達(da)圓(yuan)周(zhou)率(lv),不(bu)管(guan)小(xiao)數(shu)精(jing)度(du)有(you)多(duo)高(gao),也(ye)隻(zhi)能(neng)無(wu)限(xian)地(di)接(jie)近(jin),而(er)不(bu)是(shi)真(zhen)正(zheng)等(deng)於(yu)圓(yuan)周(zhou)率(lv)的(de)值(zhi)。
為什麼要使用音頻壓縮技術
要算一個PCM音頻流的碼率是一件很輕鬆的事情,采樣率值&TImes;采樣大小值&TImes;聲道數bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道 的PCM編碼的WAV文件,它的數據速率則為 44.1K&TImes;16&TImes;2=1411.2 Kbps。我們常說128K的MP3,對應的WAV的參數,就是這個1411.2Kbps,這個參數也被稱為數據帶寬,它和ADSL中的帶寬是一個概念。 將碼率除以8,就可以得到這個WAV的數據速率,即176.4KB/s。這表示存儲一秒鍾采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM 編碼的音頻信號,需要176.4KB的空間,1分鍾則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用, 隻有2種zhong方fang法fa,降jiang低di采cai樣yang指zhi標biao或huo者zhe壓ya縮suo。降jiang低di指zhi標biao是shi不bu可ke取qu的de,因yin此ci專zhuan家jia們men研yan發fa了le各ge種zhong壓ya縮suo方fang案an。由you於yu用yong途tu和he針zhen對dui的de目mu標biao市shi場chang不bu一yi樣yang,各ge種zhong音yin頻pin壓ya縮suo編bian碼ma所suo達da到dao的de音yin 質和壓縮比都不一樣,在後麵的文章中我們都會一一提到。有一點是可以肯定的,他們都壓縮過。
頻率與采樣率的關係
采樣率表示了每秒對原始信號采樣的次數,我們常見到的音頻文件采樣率多為44.1KHz,這意味著什麼呢?假設我們有2段正弦波信號,分別為 20Hz和20KHz,長度均為一秒鍾,以對應我們能聽到的最低頻和最高頻,分別對這兩段信號進行40KHz的采樣,我們可以得到一個什麼樣的結果呢?結果是:20Hz的信號每次振動被采樣了40K/20=2000次,而20K的信號每次振動隻有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠比高頻的詳細。這也是為什麼有些音響發燒友指責CD有數碼聲不夠真實的原因,CD的44.1KHz采樣也無法保證高頻信號被較好記錄。要較好的記錄高頻信號,看來需要更高的采樣率,於是有些朋友在捕捉CD音軌的時候使用48KHz的采樣率,這是不可取的!這其實對音質沒有任何好處,對抓軌軟件來說,保持和CD提供的44.1KHz一(yi)樣(yang)的(de)采(cai)樣(yang)率(lv)才(cai)是(shi)最(zui)佳(jia)音(yin)質(zhi)的(de)保(bao)證(zheng)之(zhi)一(yi),而(er)不(bu)是(shi)去(qu)提(ti)高(gao)它(ta)。較(jiao)高(gao)的(de)采(cai)樣(yang)率(lv)隻(zhi)有(you)相(xiang)對(dui)模(mo)擬(ni)信(xin)號(hao)的(de)時(shi)候(hou)才(cai)有(you)用(yong),如(ru)果(guo)被(bei)采(cai)樣(yang)的(de)信(xin)號(hao)是(shi)數(shu)字(zi)的(de),請(qing)不(bu)要(yao) 去嚐試提高采樣率。
PCM編碼
PCM脈衝編碼調製是Pulse CodeModulation的縮寫。前麵的文字我們提到了PCM大致的工作流程,我們不需要關心PCM最終編碼采用的是什麼計算方式,我們隻需要知道 PCM編碼的音頻流的優點和缺點就可以了。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。我們常見的AudioCD就采用了PCM編碼,一張光盤的容量隻能容納72分鍾的音樂信息。
WAVE
這是一種古老的音頻文件格式,由微軟開發。WAV是一種文件格式,符合 PIFF Resource Interchange FileFormat規範。所有的WAV都有一個文件頭,這個文件頭音頻流的編碼參數。WAV對音頻流的編碼沒有硬性規定,除了PCM之外,還有幾乎所有 支持ACM規範的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示範,因為AVI和WAV在文件結構上是非常相似的,不過 AVI多了一個視頻流而已。我們接觸到的AVI有很多種,因此我們經常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種 視頻編碼,AVI可以采用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的 都是音頻流被PCM編碼處理的WAV,但這不表示WAV隻能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,隻要安裝好了相應的 Decode,就可以欣賞這些WAV了。
在Windows平台下,基於PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持, 由於本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創作的首選格式,適合保存音樂素材。因此,基於PCM編碼的WAV被作為了一種中介的格式, 常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。
MP3編碼
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關的軟件產品層出不窮,而且更多的硬件產品也開始支持MP3,我們能夠買 到的VCD/DVD播放機都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮 的格式的生存與流傳。MP3發展已經有10個年頭了,他是MPEG(MPEG:Moving Picture Experts Group) AudioLayer-3的簡稱,是MPEG1的衍生編碼方案,1993年由德國FraunhoferIIS研究院和湯姆生公司合作發展成功。MP3可以 做到12:1的驚人壓縮比並保持基本可聽的音質,在當年硬盤天價的日子裏,MP3迅速被用戶接受,隨著網絡的普及,MP3被數以億計的用戶接受。MP3編 碼技術的發布之初其實是非常不完善的,由於缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質破壞嚴重。隨著新技術的不斷導 入,mp3編碼技術一次一次的被改良,其中有2次重大技術上的改進。
VBR:MP3格(ge)式(shi)的(de)文(wen)件(jian)有(you)一(yi)個(ge)有(you)意(yi)思(si)的(de)特(te)征(zheng),就(jiu)是(shi)可(ke)以(yi)邊(bian)讀(du)邊(bian)放(fang),這(zhe)也(ye)符(fu)合(he)流(liu)媒(mei)體(ti)的(de)最(zui)基(ji)本(ben)特(te)征(zheng)。也(ye)就(jiu)是(shi)說(shuo)播(bo)放(fang)器(qi)可(ke)以(yi)不(bu)用(yong)預(yu)讀(du)文(wen)件(jian)的(de)全(quan)部(bu)內(nei)容(rong)就(jiu)可(ke)以(yi)播(bo)放(fang),讀(du)到(dao)哪(na)裏(li)播(bo)放(fang)到(dao)哪(na)裏(li),即(ji)使(shi)是(shi)文(wen)件(jian)有(you)部(bu)分(fen)損(sun)壞(huai)。雖(sui)然(ran)mp3可以有文件頭,但對於 mp3格式的文件卻不是很重要,正因為這種特性,決定了MP3文件的每一段每一幀都可以單獨的平均數據速率,而無需特別的解碼方案。於是出現了一種叫 VBR(Variablebitrate,動態數據速率)的技術,可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在 保bao證zheng音yin質zhi的de前qian提ti下xia最zui大da程cheng度du的de限xian製zhi了le文wen件jian的de大da小xiao。這zhe種zhong技ji術shu的de優you越yue性xing是shi顯xian而er易yi見jian的de,但dan要yao運yun用yong確que實shi是shi一yi件jian難nan事shi,因yin為wei這zhe要yao求qiu編bian碼ma器qi知zhi道dao如ru何he為wei每mei一yi段duan分fen配pei bitrate,這對沒有波形分析的編碼器而言,這種技術如同虛設。正是如此,VBR技術並沒有一出現就顯得光彩奪目。
zhuanjiamentongguochangqideshengxueyanjiu,faxianrenercunzaizhebixiaoying。shengyinxinhaoshijishiyizhongnengliangbo,zaikongqihuoqitameijiezhongchuanbo,renerduishengyinnengliangdeduoshaojixiangduhuoshengyazuizhijiede 反應就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小 不同。人耳最容易聽到的就是4000Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人 耳就聽不到了,每一個頻率都有著不同的值。
可以看到這條曲線基本成一個V字型,當頻率超過15000Hz時,人耳的會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻 率,不管響度有多大。當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風扇的聲音,晚上卻 chenglezaoshengyuan,genjuzhezhongyuanli,bianmaqikeyiguolvdiaohenduotingbudaodeshengyin,yijianhuaxinxifuzadu,zengjiayasuobi,erbumingxiandejiangdiyinzhi。zhezhongzhebibeichengweitongshizhebixiaoying。danshengyin A被聲音B遮蔽,如果A處於B為中心的遮蔽範圍內,遮蔽會更明顯,這個範圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。
頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)
50 80 1850 280
150 100 2150 320
350 100 2500 380
450 110 3400 550
570 120 4000 700
700 140 4800 900
840 150 5800 1100
1000 160 7000 1300
1170 190 8500 1800
1370 210 10500 2500
1600 240 13500 3500
根據這種效應,專家們設計出人耳聽覺心理模型,這個模型被導入到mp3編碼中後,導致了一場翻天覆地的音質革命,mp3編碼技術一直背負著音質 差的惡名,但這個惡名現在已經逐漸被洗脫。到了此時,一直被埋沒的VBR技術光彩四射,配合心理模型的運用便現實出強大的誘惑力與殺傷力。
長期 來,很多人對MP3印象不好,更多人認為WMA的最佳音質要好過MP3,這種說法是不正確的,在中高碼率下,編碼得當的MP3要比WMA優秀很多,可以非 常接近CD音質,在不太好的硬件設備支持下,沒有多少人可以區分兩者的差異,這不是神話故事,盡管你以前盲聽就可以很輕鬆區分MP3和CD,但現在你難保 證你可以分辨正確。因為MP3是優秀的編碼,以前被埋沒了。
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 菲尼克斯電氣DIP產線獲授“IPC HERMES Demo Line”示範線
- 貿澤電子新品推薦:2026年第一季度引入超過9,000個新物料
- PROFINET牽手RS232:網關為RFID裝上“同聲傳譯”舊設備秒變智能
- 跨域無界 智馭未來——聯合電子北京車展之智能網聯篇
- 為AI尋找存儲新方案
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
單向可控矽
刀開關
等離子顯示屏
低頻電感
低通濾波器
低音炮電路
滌綸電容
點膠設備
電池
電池管理係統
電磁蜂鳴器
電磁兼容
電磁爐危害
電動車
電動工具
電動汽車
電感
電工電路
電機控製
電解電容
電纜連接器
電力電子
電力繼電器
電力線通信
電流保險絲
電流表
電流傳感器
電流互感器
電路保護
電路圖


