聲紋識別原理
聲紋是用電聲學儀器顯示的攜帶言語信息的聲波頻譜,。人類語言的產生是人體語言中樞與發(fā)音器官之間一個復雜的生理物理過程,,人在講話時使用的發(fā)聲器官--舌,、牙齒,、喉頭、肺,、鼻腔在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異,。這也使得聲紋識別也可以稱為身份認證的一種方式,。
聲紋識別優(yōu)缺點
1、聲紋識別的優(yōu)勢在于:
(1)聲紋提取方便,,可在不知不覺中完成,,因此使用者的接受程度也高;
(2)獲取語音的識別成本低廉,,使用簡單,,一個麥克風即可,在使用通訊設備時更無需額外的錄音設備,;
(3)適合遠程身份確認,,只需要一個麥克風或電話、手機就可以通過網路(通訊網絡或互聯(lián)網絡)實現(xiàn)遠程登錄,;
(4)聲紋辨認和確認的算法復雜度低,;
(5)配合一些其他措施,如通過語音識別進行內容鑒別等,,可以提高準確率,。這些優(yōu)勢使得聲紋識別的應用越來越受到系統(tǒng)開發(fā)者和用戶青睞,。
2、聲紋識別的缺點:
當然,,聲紋識別的應用有一些缺點,,比如同一個人的聲音具有易變性,易受身體狀況,、年齡,、情緒等的影響;比如不同的麥克風和信道對識別性能有影響,;比如環(huán)境噪音對識別有干擾,;又比如混合說話人的情形下人的聲紋特征不易提取等等。
聲紋識別的過程
聲紋識別的過程包括:語音信號處理,、聲紋特征提取,、聲紋建模、聲紋比對,、判別決策等,。
聲紋識別匹配模式
聲紋識別技術的關鍵在于對各種聲學特征參數(shù)進行處理,并確定模式匹配方法,,主要的模式匹配方法包括:
1,、模板匹配方法:利用動態(tài)時間彎折(DTW)以對準訓練和測試特征序列,主要用于固定詞組的應用(通常為文本相關任務),;
2,、最近鄰方法:訓練時保留所有特征矢量,識別時對每個矢量都找到訓練矢量中最近的K個,,據(jù)此進行識別,,通常模型存儲和相似計算的量都很大;
3,、神經網絡方法:有很多種形式,,如多層感知、徑向基函數(shù)(RBF)等,,可以顯式訓練以區(qū)分說話人和其背景說話人,,其訓練量很大,且模型的可推廣性不好,;
5、VQ聚類方法(如LBG):效果比較好,,算法復雜度也不高,,和HMM方法配合起來更可以收到更好的效果;
6,、多項式分類器方法:有較高的精度,,但模型存儲和計算量都比較大,;
此外還有概率統(tǒng)計方法、動態(tài)時間規(guī)整方法,、矢量量化方法等等,。
聲紋識別技術的難點
目前,聲紋識別技術的市場應用并不廣泛,,,但并非這項技術本身不成熟,,而是由于實際商業(yè)應用場景的復雜性,很可能導致身份識別產生較大誤差,。
首先,,說話人的語音聲學特征不可避免地具有發(fā)展性和變異性,,既便是同一個人,,即便采集到的兩段語音內容都是相同的,但是在不同的時期或特殊的情境下,,由于情緒,、語速、疲勞程度等原因,,聲紋特征也不盡一致,;
其次,聲紋特征提取是在現(xiàn)實環(huán)境中進行的,,如何降噪以及去混響依然是聲紋識別的一大難題,。在外部環(huán)境中,各種噪音都會通過錄音設備采集進來,,這些噪音會在一定程度上混淆或者淹沒說話人信息,,使得聲紋系統(tǒng)無法獲取準確的說話人聲紋特征。因此,,應用聲紋識別技術的產品大多適合在相對安靜的場合使用,。