當前位置:歷史故事大全網 - 歷史上的今天 - 求論文(語音識別)

求論文(語音識別)

通過語音與機器交流,讓機器明白妳在說什麽,是人長久以來的夢想。語音識別技術是壹種高科技,它允許機器通過識別和理解的過程將語音信號轉換為相應的文本或命令。語音識別是壹門交叉學科。在過去的二十年裏,語音識別技術取得了顯著的進步,並開始從實驗室走向市場。據預測,在未來10年,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子等各個領域。

語音識別聽寫機在某些領域的應用被美國新聞界評為1997年計算機發展十大事件之壹。許多專家認為,語音識別技術是2000年至2010年信息技術領域十大重要技術發展技術之壹。

語音識別技術涉及的領域包括:信號處理、模式識別、概率論與信息論、發聲機制與聽覺機制、人工智能等等。任務的分類與應用根據識別對象的不同,語音識別任務大致可以分為三類,即孤立詞識別、關鍵詞識別和連續語音識別。其中,孤立詞識別的任務是識別事先已知的孤立詞,如“開機”、“關機”。連續語音識別的任務是識別任何連續的語音,比如壹句話或者壹段話;連續語音流中的關鍵詞檢測是針對連續語音的,但並不識別所有的詞,只是檢測壹些已知的關鍵詞出現在哪裏,比如壹段話中的“計算機”和“世界”。

根據說話人的不同,語音識別技術可以分為特定人語音識別和非特定人語音識別。前者只能識別壹個或幾個人的語音,後者任何人都可以用。顯然,非特定人語音識別系統更符合實際需要,但它比針對特定人的識別要困難得多。

此外,根據語音設備和通道,可以分為桌面(PC)語音識別、電話語音識別和嵌入式設備(手機、PDA等。)語音識別。不同的采集通道會扭曲人類發音的聲學特性,因此有必要構建各自的識別系統。

語音識別的應用領域非常廣泛。常見的應用系統有:語音輸入系統,比鍵盤輸入法更符合人們的日常習慣、更自然、更高效;語音控制系統,即利用語音來控制設備的運行,比人工控制更快捷方便,可用於工業控制、語音撥號系統、智能家電、聲控智能玩具等諸多領域。智能對話查詢系統,根據客戶的語音進行操作,為用戶提供自然友好的數據庫檢索服務,如家居服務、酒店服務、旅行社服務系統、訂票系統、醫療服務、銀行服務、股票查詢服務等。前端前端處理是指在特征提取之前對原始語音進行處理,部分消除噪聲和不同說話人的影響,使處理後的信號更能反映語音的本質特征。最常用的前端處理包括端點檢測和語音增強。端點檢測是指區分語音信號中語音信號和非語音信號的周期,準確確定語音信號的起始點。端點檢測後,只能對語音信號進行後續處理,這對提高模型的準確性和識別的準確性有重要作用。語音增強的主要任務是消除環境噪聲對語音的影響。目前常用的方法是維納濾波器,在大噪聲的情況下比其他濾波器要好。聲學特征的處理聲學特征的提取和選擇是語音識別中的壹個重要環節。聲學特征的提取不僅是壹個信息壓縮的過程,也是壹個信號反卷積的過程,目的是使模式分類器更好地劃分。由於語音信號的時變特性,必須對語音信號的壹小段進行特征提取,即短時分析。這種被認為是靜止的分析間隔稱為壹幀,幀之間的偏移量通常為幀長的1/2或1/3。通常要對信號進行預加重以提高高頻,對信號進行加窗處理以避免短時語音段邊緣的影響。壹些常用的聲學特性*線性預測系數LPC:線性預測分析從人類發聲的機理入手,通過對聲道的短管級聯模型的研究,認為系統的傳遞函數符合全極點數字濾波器的形式,從而可以通過前幾個時刻的信號的線性組合來估計N時刻的信號。可以通過使實際語音樣本值和線性預測樣本值之間的均方誤差達到最小LMS來獲得線性預測系數LPC。LPC的計算方法有自相關法(德賓法)、協方差法、格法等。快速有效的計算確保了這壹聲學特征的廣泛使用。類似LPC預測參數模型的聲學特征有線譜對LSP、反射系數等。

倒譜系數CEP:倒譜系數可以利用同態處理方法,對語音信號進行離散傅裏葉變換DFT後取對數,再進行逆變換iDFT得到。對於LPC倒譜(LPCCEP),在獲得濾波器的線性預測系數後,可以通過壹個遞推公式計算出來。實驗表明,倒譜可以提高特征參數的穩定性。

*梅爾倒譜系數MFCC和感知線性預測PLP:與LPC等通過研究人類發聲機理獲得的聲學特征不同,梅爾倒譜系數MFCC和感知線性預測PLP是從人類聽覺系統的研究成果中衍生出來的聲學特征。對人類聽覺機制的研究表明,當兩個頻率相近的音調同時發出時,人只能聽到壹個音調。臨界帶寬是指這樣壹個帶寬邊界,使人的主觀感受突然發生變化。當兩個音調的頻率差小於臨界帶寬時,人們會把兩個音調聽成壹個,這就是所謂的屏蔽效應。Mel標度是測量這壹臨界帶寬的方法之壹。

MFCC的計算首先通過FFT將時域信號變換到頻域,然後將其對數能量譜與按Mel尺度分布的三角形濾波器組進行卷積,最後對每個濾波器輸出形成的向量進行離散余弦變換(DCT),取前n個系數。PLP仍然使用Durbin方法來計算LPC參數,但是它也使用DCT方法來計算自相關參數。聲學模型語音識別系統的模型通常由聲學模型和語言模型組成,分別對應於語音對音節概率和音節對單詞概率的計算。本節和下壹節分別介紹聲學模型和語言模型技術。

HMM聲學建模:馬爾可夫模型的概念是時域上的離散有限狀態自動機。隱馬爾可夫模型的HMM是指這個馬爾可夫模型的內部狀態對於外界是不可見的,外界只能看到每個時刻的輸出值。對於語音識別系統,輸出值通常是從每壹幀計算出來的聲學特征。用HMM描述語音信號需要兩個假設,壹是內部狀態轉移只與前壹個狀態相關,二是輸出值只與當前狀態(或當前狀態轉移)相關,這大大降低了模型的復雜度。HMM的評分、解碼和訓練對應的算法有前向算法、維特比算法和正反向算法。

在語音識別中,HMM通常被建模為具有自循環和從左到右跨越的單向拓撲結構。音位是三到五態HMM,單詞是由多個音位串聯而成的HMM,連續語音識別的整個模型是單詞和無聲的組合。語境相關建模:協同發音是指壹個音在相鄰音的影響下發生變化。從發聲機制來看,人類發聲器官的特性只有在壹種聲音轉向另壹種聲音時才能逐漸發生變化,從而使後壹種聲音的頻譜不同於其他條件下的頻譜。上下文相關建模方法在建模時考慮了這種影響,使模型能夠更準確地描述語音。Bi- Phone只考慮前面聲音的影響,Tri-Phone只考慮前面聲音和後面聲音的影響。

英語上下文相關建模通常基於音素。因為壹些音素對後續音素具有相似的影響,所以可以通過聚類音素解碼狀態來共享模型參數。聚類的結果稱為senone。決策樹用於實現三音素和四音素的有效對應。通過回答壹系列關於類別(元/輔音、濁音/清音等)的問題。)的前後音,最終確定其HMM狀態應該使用哪個senone。分類回歸樹的CART模型用於將單詞的發音標註為音素。語言模型語言模型主要分為規則模型和統計模型。統計語言模型以概率統計的方式揭示語言單位的內在統計規律,其中N-Gram簡單有效,應用廣泛。

N-Gram:該模型基於這樣的假設:第N個單詞的出現只與前面的N-1個單詞相關,而與其他任何單詞無關,整個句子的概率是每個單詞出現概率的乘積。這些概率可以通過直接從語料庫中計數n個單詞同時出現的次數來獲得。二元二元模型和三元模型是常用的。

語言模型的性能通常用交叉熵和困惑度來衡量。交叉熵的意義在於用這種模型進行文本識別的難度,或者從壓縮的角度來說,每個單詞平均需要用幾個比特進行編碼。復雜度的含義就是用這個模型來表示這個文本的平均分支數,它的倒數可以看作是每個詞的平均概率。平滑是指給未被觀察的n元組分配壹個概率值,以保證詞序列總能通過語言模型得到壹個概率值。常用的平滑技術有圖靈估計、刪除插值平滑、Katz平滑和Kneser-Ney平滑。連續語音識別中的搜索是尋找壹個詞模型序列來描述輸入的語音信號,從而得到壹個詞解碼序列。該搜索基於對公式中的聲學模型和語言模型的評分。在實踐中,往往需要根據經驗給語言模型加上壹個很高的權重,並為長詞設置壹個懲罰分數。

Viterbi:根據動態規劃中Viterbi算法在每個時間點的狀態,計算解碼狀態序列對觀測序列的後驗概率,保留概率最大的路徑,記錄每個節點對應的狀態信息,以便最終反向得到字解碼序列。Viterbi算法解決了連續語音識別中HMM模型狀態序列與聲學觀測序列、單詞邊界檢測和單詞識別之間的非線性時間對齊而不丟失最優解,從而使該算法成為語音識別搜索的基本策略。

由於語音識別無法預測當前時間點之後的情況,基於目標函數的啟發式剪枝很難應用。由於維特比算法的時間齊次特性,同壹時刻的每條路徑對應同壹觀測序列,因此具有可比性。波束搜索只保留每個時刻概率最大的前幾條路徑,大大提高了搜索的效率。這種時間均勻維特比波束算法是當前語音識別搜索中最有效的算法。N-best搜索和多遍搜索:為了在搜索中利用各種知識源,通常需要進行多遍搜索。第壹次使用低成本知識源生成候選列表或單詞候選網格,在此基礎上,第二次使用高成本知識源獲取最佳路徑。之前介紹的知識源有聲學模型、語言模型、語音詞典,可以用於第壹次搜索。為了實現更高級的語音識別或口語理解,往往需要使用壹些更昂貴的知識源,如4階或5階N元文法、4階或更高階上下文相關模型、詞間相關模型、分詞模型或語法分析等,進行重新評分。許多最新的實時大詞匯量連續語音識別系統使用這種多遍搜索策略。

N-best搜索生成壹個候選列表,每個節點要預留n條最佳路徑,這樣計算復雜度會增加到n倍。簡化的方法是為每個節點只保留幾個候選單詞,但是次優候選單詞可能會丟失。壹個折中的辦法是只考慮兩個單詞的路徑,保留k-pieces。單詞候選網格以更緊湊的方式給出多個候選,通過對N-best搜索算法做相應的修改,可以得到壹個生成候選網格的算法。

向前和向後搜索算法是應用多重搜索的壹個例子。當簡單的知識源被應用於前向維特比搜索時,在搜索過程中獲得的前向概率可以被用於後向搜索的目標函數的計算,因此啟發式A算法可以被用於後向搜索,並且可以經濟地搜索N個候選。系統實現語音識別系統識別基元選擇的要求是定義準確,能得到足夠的數據進行訓練,具有通用性。英語通常使用上下文相關的音素建模,而漢語的同音沒有英語那麽嚴重,所以可以使用音節建模。系統所需的訓練數據的大小與模型的復雜程度有關。模型的設計過於復雜,超出了所提供的訓練數據的能力,會使性能急劇下降。

聽寫機:詞匯量大、非特定、連續的語音識別系統通常稱為聽寫機。其架構是基於前述聲學模型和語言模型的HMM拓撲。在訓練中,模型參數由每個基元的前向-後向算法獲得。識別時,將基元串接成詞,並在詞與詞之間加入無聲模型,引入語言模型作為詞與詞之間的轉移概率,形成循環結構,用維特比算法解碼。鑒於中文容易切分,先切分再逐段解碼是提高效率的簡化方法。

對話系統:用來實現人機口語對話的系統稱為對話系統。受限於目前的技術,對話系統往往是面向某個狹窄領域、詞匯量有限的系統,其主題包括旅遊查詢、預訂、數據庫檢索等。它的前端是語音識別器,對生成的N-best候選或單詞候選網格進行識別,由解析器分析得到語義信息,再由對話管理器確定應答信息,由語音合成器輸出。因為目前的系統往往詞匯量有限,我們還可以通過提取關鍵詞來獲取語義信息。自適應魯棒語音識別系統的性能受多種因素的影響,包括不同的說話人、說話風格、環境噪聲、傳輸信道等。提高系統的魯棒性就是提高系統克服這些因素的能力,使系統在不同的應用環境和條件下保持穩定。自適應的目的是根據不同的影響源,自動地、有針對性地調整系統,逐步提高使用中的性能。以下是針對影響系統性能的不同因素的解決方案。

根據語音特征的方法(以下稱為特征方法)和模型調整的方法(以下稱為模型方法),解決方案可以分為兩類。前者需要找到更好更魯棒的特征參數,或者在現有的特征參數上增加壹些特定的處理方法。後者使用少量的自適應語料庫對原始的非特定人(SI)模型進行修改或變換,從而使其成為壹個特定人自適應(s a)模型。

說話人自適應的特征方法包括說話人歸壹化和說話人子空間方法,模型方法包括貝葉斯方法、變換方法和模型合並方法。

語音系統中的噪聲包括環境噪聲和錄音過程中加入的電子噪聲。提高系統魯棒性的特征方法包括語音增強和尋找對噪聲幹擾不敏感的特征。建模方法包括並行模型組合PMC方法和在訓練中人為添加噪聲。通道失真包括麥克風之間的距離、不同靈敏度的麥克風、不同增益的前置放大器、不同的濾波器設計等等。特征方法包括倒譜向量減去其長期平均值和RASTA濾波,模型方法包括倒譜平移。微軟語音識別引擎微軟在office和vista中都使用了自己的語音識別引擎。微軟語音識別引擎的使用是完全免費的,所以產生了很多基於微軟語音識別引擎的語音識別應用軟件,比如語音遊戲大師、語音控制專家、芝麻開門等等。語音識別系統的性能指標語音識別系統的性能指標主要有四個。①詞匯表範圍:這是指機器可以識別的單詞或短語的範圍。如果沒有限制,詞匯範圍可以認為是無限的。(2)說話人限制:是只能識別指定說話人的聲音,還是識別任意說話人的聲音。③訓練要求:使用前是否需要訓練,即是否讓機器先“聽”給定的語音,訓練次數。④正確識別率:正確識別的平均百分比,與前三項指標有關。

總結

以上介紹了實現語音識別系統各個方面的技術。這些技術在實際使用中取得了很好的效果,但是如何克服影響發音的各種因素還需要更深入的分析。目前,聽寫機系統還不能完全替代鍵盤輸入,但識別技術的成熟促進了更高層次語音理解技術的研究。由於英語和漢語具有不同的特點,如何在漢語中使用為英語提出的技術也是壹個重要的研究課題,漢語特有的問題如四聲也需要解決。

  • 上一篇:求歷史作業答案
  • 下一篇:南溪主題旅遊景點介紹南溪旅遊景點
  • copyright 2024歷史故事大全網