語音信號短時分析

上傳人:ra****d 文檔編號:242905578 上傳時間:2024-09-11 格式:PPT 頁數(shù):51 大小:1.06MB
收藏 版權(quán)申訴 舉報 下載
語音信號短時分析_第1頁
第1頁 / 共51頁
語音信號短時分析_第2頁
第2頁 / 共51頁
語音信號短時分析_第3頁
第3頁 / 共51頁

下載文檔到電腦,查找使用更方便

16 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《語音信號短時分析》由會員分享,可在線閱讀,更多相關(guān)《語音信號短時分析(51頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,,*,單擊此處編輯母版標題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,,*,語音信號的短時分析技術(shù),分析是處理的前提和基礎(chǔ);,,分析的目的是提取需要的信息,獲取特征表示參數(shù);,,可分為時域分析、頻域分析、同態(tài)分析等;模型分析與非模型分析等;,,分析技術(shù):短時分析 10~30,ms,相對平穩(wěn)(5~50,ms,20~200ms),,分析幀長一般為20,ms,,常用的短時分析技術(shù)有:,,短時能量,,短時平均幅度,,短時過零率,,短時自相關(guān)函數(shù),,短時平均幅度差函數(shù),,短

2、時頻譜,,短時功率譜,預濾波,預濾波的目的,,防止混疊干擾,,抑制50Hz的電源干擾,,預濾波實際上是一個帶通濾波器,其上下截止頻率分別為fH和fL 。,,對于絕大多數(shù)語音編碼器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz.,,對于語音識別系統(tǒng)而言,用于 用戶時要求技術(shù)指標與語音編碼器相同,如果對于更高的要求場合,則fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz,幀和加窗的概念,短時分析將語音流分為一段一段來處理,每一段稱為一“幀”;,,幀長:10~30,ms,20ms,常見;(幀率) 幀移:0~1/2幀長,幀與幀之間的平滑過

3、渡;,為了減小語音幀的截斷效應,需要加窗處理;,矩形窗,Hamming,Hann,不同的窗口選擇(形狀、長度),將決定短時平均能量的性質(zhì)。什么樣的窗口,其短時平均能量才能更好的反映語音信號的振幅變化哪?,,首先是,窗口的形狀,窗口有多種形狀,他們都是中心對稱的,。,,其次是,窗口的長度,無論什么形狀的窗口,窗口序列的長度,N,將起決定性的作用。,N,選得太大,濾波器的通帶變窄,波形的振幅變化細節(jié)就看不出來,反之,如果,N,太小,則濾波器的通帶變寬,信號得不到足夠的平均。,,所謂,窗口長度的長短,都是相對于語音信號的基調(diào)周期而言的。通常認為在一個語音幀內(nèi),應含有,1—7,個基調(diào)周期為好。,可是人

4、的語音的基調(diào)周期值是變化的,從女性小孩的,2ms,到老年男子的,14ms,(即基調(diào)頻率為,500Hz,至,70Hz,),所以,N,的選擇是比較困難的。通常折衷的,選擇,N,為,100~200,點為宜,。若采用頻率為,10KHz,,則相當于每幀的長度(即窗口序列的長度)約為,10~20ms,為宜。若采樣頻率為,8KHz,,,200,點相當于,25ms,,,40,幀,/s,;,120,點相當于,15ms,,,66,幀,/s.,窗函數(shù)及其比較,三種窗函數(shù)都有,低通特性,,通過分析三種窗的頻率響應幅度特性可以發(fā)現(xiàn):,,矩形窗的主瓣寬度最小,旁瓣高度最高,會導致泄漏現(xiàn)象,,,哈明窗的主瓣最寬,旁瓣高度最

5、低,,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應用更廣泛。,,窗口的形狀和長度對分析影響很大,不同的分析方法對窗函數(shù)的要求不盡一樣;,Hamming,,Hann,矩形窗,語音信號的短時能量(語音信號強度的度量參數(shù)),如果窗的起點是,n=0,,短時能量為,,,,如果窗的起點為,n=m,,短時能量為:,,,,不同窗口寬度的短時能量函數(shù)示意圖,短時平均能量的主要用途,可以從語音中區(qū)別出濁音來,,因為濁音時短時平均能量的值要比清音時短時平均能量的值大很多;,,可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等,,最為一種超音段信息,用于語音識別中。,語音信號的短時平均幅度,如果窗的起點是,n=0,

6、,短時平均幅度為,,,,如果窗的起點為,n=m,,短時平均幅度為:,,,短時過零率,,,波形穿過橫軸(零電平)的次數(shù),短時過零可以看作信號頻率的簡單度量,語音信號的短時過零率,Z,過零就是指信號通過零值。過零率就是每秒內(nèi)信號值通過零值的次數(shù)。,,對于離散時間序列,過零則是指序列取樣值改變符號,過零率則是每個樣本的改變符號的次數(shù)。對于語音信號,,則是指在一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù),??梢杂孟噜弮蓚€取樣改變符號的次數(shù)來計算。,,如果窗的起點是,n=0,,短時過零率,Z,為,,,將,Z,應用于語音信號分析中,發(fā)濁音時,聲帶振動,因而聲門激勵是以此音調(diào)頻率為基頻來使聲道共振;盡管有

7、若干個共振峰,但其能量的分布集中于低于,3KHz,的頻率范圍內(nèi)。,,發(fā)清音時聲帶不振動,聲道某部分阻塞產(chǎn)生類白噪聲激勵,通過聲道后其能量集中在比濁音時更高的頻率范圍內(nèi)。,,濁音時能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時能量集中于較高頻率段內(nèi),具有較高的過零率。,,濁音和清音情況下典型的平均過零率的直方圖。直方圖的分布形狀與高斯分布很吻合,而且,濁音時的短時平均過零率的均值為,14,過零,/10ms,,清音時短時過零率的均值為,47,過零,/10ms,。,注意到濁音和清音有一個交疊區(qū)域,此時很難分清是濁音還是清音,盡管如此,平均過零率仍可以粗略的判斷清音和濁音。,短時平均能量和短時平均

8、過零率兩個參數(shù),也都可以用于語音識別中。主要用于識別無聲段和語音段的起點和終點的位置。,,在背景噪聲比較小的時候用平均能量來識別比較有效,在背景噪聲比較大的時候用平均過零率來識別比較有效,但是通常情況是兩個參數(shù)聯(lián)合進行識別。,E、M、Z,的條件概率密度函數(shù),濁音、清音、無聲的短時特性,S,(無聲),U,(清音),V,(濁音)三種情況下短時平均幅度的條件概率密度的示意圖??梢钥闯?,,濁音的短時平均幅度最大,無聲的短時平均幅度最小。,清音的短時過零率最大,無聲居中,濁音的短時,,過零率最小,。,語音有聲和無聲,在許多語音處理技術(shù)中需要判斷一段輸入信號中哪些是語音段,哪些是無聲段(只有背景噪聲),,

9、在語音識別中正確的決定所要識別語音的起點、終點對于提高識別率往往是重要的。,,對于數(shù)字移動通信的手持機編譯碼器,在較長的無聲段應降低發(fā)射功率以節(jié)約其電池的消耗。,語音有聲和無聲,對于已經(jīng)判定為語音段的部分,尚需決定其清音或濁音,無論對于語音識別還是低速語音編譯碼器這都是很重要的。這些問題可以概括為無聲,/,有聲判決以及更細致的,S/U/V,判決。,,能夠?qū)崿F(xiàn)這些判決的依據(jù)在于不同性質(zhì)的語音的各種短時參數(shù)具有不同的概率密度函數(shù)以及相鄰的若干幀語音應具有一致的語音特性,它們不會在,S,、,U,、,V,之間跳來跳去。,判斷語音信號的起點和終點,在獨立詞(字)語音識別系統(tǒng)中需正確判定每一個輸入語音的起

10、點和終點,利用短時平均幅度和短時過零率可以做到這一點。,,首先,可根據(jù)濁語音情況下短時平均幅度,M,的概率密度函數(shù),P(M/V),確定一個閾值參數(shù),M,H,, M,H,的值定得比較高。當一幀輸入信號的,M,值超過,M,H,時,就可以十分肯定該幀語音信號不是無聲,而有相當大的可能性是濁音。,判斷語音信號的起點和終點,根據(jù),M,H,可判定輸入語音中的前后兩個點,N,1,和,N,2,, N,1,和,N,2,之間肯定是語音段,但是語音的精確起點、終點還要在,N,1,之前和,N,2,之后仔細查找。為此在設(shè)置一個低閾值參數(shù),M,L,,,由,N,1,向前找,當短時平均幅度,M,由大到小減至,M,L,時可以確

11、定點,N,1,’,。類似由,N,2,向后找,可以確定,N,2,’,。在,N,1,’,和,N,2,’,之間仍能肯定是語音段。,,判斷語音信號的起點和終點,由,N1’,向前和,N2’,向后繼續(xù)用短時過零率,Z,進行搜索。根據(jù)無聲情況下短時過零率,Z,的均值,設(shè)置一個參數(shù),Z0,,如果由,N1’,向前搜索時,Z,始終大于,Z0,的,3,倍,則認為這些信號仍屬于語音段,直至,Z,突然下降到低于,3Z0,值時,這時可以確定語音的精確起點(為了保證可靠,由,N1’,向前搜索時間不超過,25ms,)。對終點做同樣的處理。采取這一算法的原因在于,,N1’,以前可能是一段清輔音段(如,f,s,),它的能量相當弱

12、,依靠能量不可能把他們與無聲段區(qū)別開,而他們的過零率明顯高于無聲,因而能用這個參數(shù)來精確的判斷二者的分割點,也就是語音真正的起點。,判斷語音信號的起點和終點,另一種判斷的方法是如果能夠求出,S,、,U,、,V,三種情況下短時平均幅度,M,和短時過零率,Z,的條件聯(lián)合概率密度函數(shù),P(M,、,Z/S), P(M,、,Z/U), P(M,、,Z/V),,那么就可以采用統(tǒng)計學中的最大似然算法,根據(jù)一幀信號的,M,和,Z,值來判斷它的,S/U/V,。就是計算后驗概率:,,P(X/M,Z)=[P(M,Z/X)P(X)]/P(M,Z),,其中,,X=S,或,U,或,V,。后驗概率最大者即作為判決結(jié)果。,,

13、事實上,僅依靠,M,和,Z,兩個參數(shù)還是不夠的,通常要選擇更多的參數(shù),如相關(guān)函數(shù)等。,,,短時自相關(guān)函數(shù),1、是偶函數(shù);,,2、,s(n),是周期的,那么,R(k),也是周期的;,,3、可用于基音周期估計和線性預測分析;,,語音信號的短時自相關(guān)函數(shù),假設(shè) 一段加窗語音信號,非零區(qū)間為,n=0~N-1,,,,的自相關(guān)函數(shù)稱為語音信號的短時自相關(guān)函數(shù),,,,可以證明,自相關(guān)函數(shù)是偶函數(shù),且在,l=0,處取得最大值,且值為短時能量,,修正的自相關(guān)函數(shù),短時自相關(guān)函數(shù)的特點,濁音是周期信號,濁音的短時自相關(guān)函數(shù)也呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號的周期,。,,清音接近于

14、隨機噪聲,請音的短時自相關(guān)函數(shù)不具有周期性,且隨著,l,的增大迅速減小,。,,根據(jù)這個性質(zhì)可以判斷一個語音信號是清音還是濁音,還可以判斷濁音的基音周期。,語音信號的短時頻譜,的離散時域付里葉變換,,稱為語音信號的短時頻譜,,,稱為語音信號的短時功率譜,語音信號的短時頻譜,窗函數(shù),w(n),語音信號,S(n),加窗語音信號,Sw(n),DTFT,S(exp(jw)),DTFT,W(,exp(jw)),DTFT,S,w,(,exp(jw)),計算短時頻譜一般采用哈明窗,,,,短時平均幅度差函數(shù)(,AMDF),Average Magnitude Difference Function Ross,等人

15、于,1974,年提出的,,,短時基音周期估計,基于短時自相關(guān)函數(shù)的基音周期估計,,最大峰與基音周期不一致,要求幀長大于兩個基音周期;,,受共振峰的干擾,可以采取濾波或中心消波預處理。,,基于短時,AMDF,的基音周期估計,,需進行谷值點清晰度檢查、比較復雜的閾值判決;,,預處理可以改善效果;,,對幅度變化比較敏感。,基于短時自相關(guān)函數(shù)的基音周期估計方法,短時自相關(guān)函數(shù)在基音周期的各個整數(shù)倍點上取得最大值,只要能找到第一最大峰值點的位置并計算它與,l,=0,點的間隔,便能估計出基音周期。,,實際上,第一最大峰值點的位置有時不能與基音周期相吻合。因此很多時候并不是計算,l,=0,點的距離作為基音周

16、期。產(chǎn)生這種情況的原因:,,與窗的選取長度有關(guān),窗口過長或過短都會導致不一致。,通常認為窗長至少應大于兩個基音周期,語音信號中最長的基音周期約為,20ms,,因此在基音周期估計時窗長應選的大于,40ms,。,,與聲道特性的影響有,,有時窗長足夠長,但是第一最大值與基音周期仍不一致,這是主要由聲道的共振峰特性造成的干擾。(,1,、,60~900Hz,的帶通濾波器濾波,并用濾波信號的自相關(guān)函數(shù)進行基音周期的估計;,2,、對語音信號進行非線性變換后求自相關(guān)函數(shù),一種有效的非線性變換是中心削波,削波后基音周期的峰起更尖銳,),,語音信號的短時平均幅度差函數(shù)(,AMDF,),為了求基音周期,還可以采用短

17、時平均幅度差函數(shù),,對于周期語音信號,其短時平均幅度差函數(shù)也是周期性的。在估計基音周期時,不論計算短時自相關(guān)函數(shù)還是短時平均幅度差函數(shù),一般都采用矩形窗,基于短時平均幅度差函數(shù)的基音周期估計方法的特點,基音周期的谷點銳度比峰點的銳度要尖銳,估計的精度更高,,計算短時平均幅度差函數(shù)不用乘法,計算量小,,可以通過對語音信號進行譜平滑(去除共振峰的影響)和中心削波處理來改善基音周期估計的效果,,短時平均幅度差函數(shù)對于語音信號的快速變化比較敏感。,對基音周期軌跡的平滑,中值濾波 平滑點附近左右各取,L,個點,將,2L+1,個點按大小排列,取隊列中間值作為平滑器的輸出,,線性濾波 通過一個低通濾波器

18、,,組合平滑 可以將兩個中值平滑串聯(lián),或者將中值平滑和線性平滑串聯(lián),,基音估計的其他方法:,,倒譜法(,CEP),,簡化的逆濾波器法(,SIFT),,小波變換的方法,,……,基于短時自相關(guān)函數(shù)的基音周期估計方法,短時自相關(guān)函數(shù)在基音周期的各個整數(shù)倍點上取得最大值,,但是很多時候并不是計算,l=0,點的距離作為基音周期,,與窗的選取長度有關(guān),,與聲道特性的影響有關(guān)(,1,、濾波;,2,、對語音信號進行非線性變換后求自相關(guān)函數(shù)),語音信號的短時譜,語音信號的主要特征表現(xiàn)在它的 “短時頻譜”(“短時譜”)上,,短時譜的求得,短時功率譜,濁音、清音短時譜的特點,濁音短時譜的特點:,,具有明顯的周期性起伏結(jié)構(gòu),,具有明顯的凸起點,稱為“共振峰”(,formant,),,清音短時譜的特點:隨機噪聲,,短時功率譜示例,功率譜與自相關(guān)函數(shù)的關(guān)系,短時譜包絡(luò) 需要用到線性預測的方法,,同態(tài)濾波與倒譜分析,……,作業(yè),給定兩段信號判斷其是否為語音信號;,,如是語音信號判斷其起點和終點的位置;,,判斷其為濁音信號還是清音信號;,,如是濁音信號,進行基音周期的估計。,,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔

相關(guān)搜索

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!