本書系統(tǒng)地闡述語音信號處理的原理、方法、技術(shù)和應用,同時給出部分內(nèi)容對應的MATLAB程序。全書共14章,第1~7章是基本理論部分,包括緒論、語音信號的數(shù)字模型、語音信號短時時域分析、語音信號短時頻域分析、語音信號倒譜分析、語音信號線性預測分析和矢量量化;第8~14章是應用部分,包括語音編碼原理及應用、語音識別原理及應用、神經(jīng)網(wǎng)絡原理及應用、語音合成原理及應用、語音情感識別原理及應用、語音增強原理及應用、語音質(zhì)量評價和可懂度評價。本書內(nèi)容全面,重點突出,原理闡述深入淺出,注重理論與實際應用的結(jié)合,可讀性強。
張雪英,太原理工大學教授、博士生導師,從事本科生和研究生的語音信號處理、DSP應用及多媒體通信等的教學和科研工作,主要研究方向為語音編碼、抗噪語音識別和DSP應用及嵌入式系統(tǒng)開發(fā)及應用。
第1章 緒論1
1.1 語音信號處理的發(fā)展1
1.1.1 語音合成1
1.1.2 語音編碼2
1.1.3 語音識別4
1.2 語音信號處理的應用7
1.3 語音信號處理的過程8
1.4 MATLAB在數(shù)字語音信號處理中的應用9
習題110
第2章 語音信號的數(shù)字模型11
2.1 語音的發(fā)聲機理11
2.1.1 人的發(fā)聲器官11
2.1.2 語音生成12
2.2 語音的聽覺機理13
2.2.1 聽覺器官13
2.2.2 聽覺掩蔽效應14
2.2.3 臨界帶寬與頻率群15
2.2.4 耳蝸的信號處理機制16
2.2.5 語音信號聽覺模型17
2.3 語音信號的數(shù)字模型18
2.3.1 激勵模型18
2.3.2 聲道模型20
2.3.3 輻射模型22
2.3.4 數(shù)字模型22
2.3.5 模型局限性23
習題223
第3章 語音信號短時時域分析24
3.1 語音信號的預處理24
3.1.1 語音信號的預加重處理24
3.1.2 語音信號的加窗處理26
3.2 短時平均能量29
3.3 短時平均幅度32
3.4 短時平均過零率34
3.5 短時自相關分析36
3.5.1 短時自相關函數(shù)36
3.5.2 語音信號的短時自相關函數(shù)36
3.5.3 修正的短時自相關函數(shù)41
3.5.4 短時平均幅度差函數(shù)44
3.6 基于能量和過零率的語音端點檢測45
3.7 基音周期估值47
3.7.1 基于短時自相關法的基音周期估值47
3.7.2 基于短時平均幅度差函數(shù)法的基音周期估值51
3.7.3 基音周期估值的后處理53
3.7.4 基音周期估值后處理的MATLAB實現(xiàn)54
習題357
第4章 語音信號短時頻域分析59
4.1 傅里葉變換的解釋59
4.1.1 短時傅里葉變換59
4.1.2 窗函數(shù)的作用60
4.2 濾波器的解釋65
4.2.1 短時傅里葉變換的濾波器實現(xiàn)形式一65
4.2.2 短時傅里葉變換的濾波器實現(xiàn)形式二66
4.3 短時合成的兩種方法67
4.3.1 短時合成的濾波器組相加法原理67
4.3.2 短時合成的濾波器組相加法的MATLAB實現(xiàn)69
4.3.3 短時合成的疊接相加法原理及其MATLAB實現(xiàn)75
習題478
第5章 語音信號倒譜分析80
5.1 復倒譜和倒譜的定義及性質(zhì)80
5.1.1 定義80
5.1.2 復倒譜的性質(zhì)80
5.2 語音信號倒譜分析及應用83
5.2.1 語音信號倒譜分析原理83
5.2.2 語音信號倒譜應用85
5.3 Mel頻率倒譜參數(shù)91
5.3.1 Mel頻率濾波器組91
5.3.2 MFCC提取93
5.3.3 MFCC提取的MATLAB實現(xiàn)94
習題595
第6章 語音信號線性預測分析97
6.1 LPC的基本原理97
6.1.1 LPC的實現(xiàn)方法97
6.1.2 語音信號模型和LPC之間的關系99
6.1.3 模型增益G的確定100
6.2 LPC系數(shù)的解法101
6.2.1 自相關法101
6.2.2 協(xié)方差法102
6.2.3 自相關法的MATLAB實現(xiàn)103
6.3 線譜對(LSP)分析104
6.3.1 LSP的定義和特點105
6.3.2 LPC系數(shù)到LSP系數(shù)的轉(zhuǎn)換及MATLAB實現(xiàn)108
6.3.3 LSP系數(shù)到LPC系數(shù)的轉(zhuǎn)換及MATLAB實現(xiàn)111
6.4 LPC的幾種推演參數(shù)113
6.4.1 反射系數(shù)113
6.4.2 對數(shù)面積比(LAR)系數(shù)113
6.4.3 預測器多項式的根114
6.4.4 預測誤差濾波器的沖激響應及其自相關函數(shù)114
6.5 LPC的兩個應用實例114
6.5.1 LPC倒譜及MATLAB實現(xiàn)115
6.5.2 LPC基音周期檢測及MATLAB實現(xiàn)117
習題6124
第7章 矢量量化126
7.1 矢量量化基本原理127
7.1.1 矢量量化的定義127
7.1.2 失真測度128
7.1.3 矢量量化器129
7.2 最佳矢量量化器130
7.3 矢量量化器的設計算法及MATLAB實現(xiàn)131
7.3.1 LBG算法131
7.3.2 初始碼書的選取與空胞腔的處理133
7.3.3 已知訓練序列的LBG算法的MATLAB實現(xiàn)134
7.3.4 樹形搜索矢量量化器136
習題7139
第8章 語音編碼原理及應用140
8.1 語音編碼的分類及特性140
8.1.1 波形編碼140
8.1.2 參數(shù)編碼141
8.1.3 混合編碼141
8.2 語音編碼性能的評價指標141
8.2.1 編碼速率141
8.2.2 編碼語音質(zhì)量評價142
8.2.3 編解碼延時142
8.2.4 算法復雜度142
8.3 語音信號波形編碼143
8.3.1 脈沖編碼調(diào)制(PCM)143
8.3.2 自適應預測編碼(APC)147
8.3.3 G.721標準及算法實現(xiàn)149
8.4 語音信號參數(shù)編碼161
8.4.1 LPC聲碼器原理161
8.4.2 LPC-10聲碼器162
8.5 語音信號混合編碼165
8.5.1 合成分析技術(shù)和感覺加權(quán)濾波器165
8.5.2 激勵模型的演變167
8.5.3 G.728標準簡介167
8.6 語音信號寬帶變速率編碼168
習題8169
第9章 語音識別原理及應用170
9.1 語音識別系統(tǒng)概述170
9.1.1 語音信號預處理170
9.1.2 語音識別特征提取171
9.1.3 語音訓練識別網(wǎng)絡172
9.2 支持向量機在語音識別中的應用175
9.2.1 支持向量機分類原理175
9.2.2 支持向量機的模型參數(shù)選擇問題180
9.2.3 支持向量機用于語音識別的MATLAB實現(xiàn)181
習題9185
第10章 神經(jīng)網(wǎng)絡原理及應用186
10.1 人工神經(jīng)網(wǎng)絡186
10.1.1 神經(jīng)元186
10.1.2 神經(jīng)網(wǎng)絡的分類187
10.2 深度神經(jīng)網(wǎng)絡188
10.2.1 深度學習188
10.2.2 卷積神經(jīng)網(wǎng)絡189
10.2.3 長短時記憶(LSTM)網(wǎng)絡190
10.3 神經(jīng)網(wǎng)絡在語音信號處理中的應用191
10.3.1 RBF網(wǎng)絡在語音識別中的應用及MATLAB實現(xiàn)191
10.3.2 SOFM網(wǎng)絡在語音編碼中的應用及MATLAB實現(xiàn)197
10.3.3 深度神經(jīng)網(wǎng)絡在語音識別中的應用200
習題10202
第11章 語音合成原理及應用203
11.1 語音合成系統(tǒng)概述203
11.1.1 文本分析204
11.1.2 韻律控制206
11.1.3 語音合成方法206
11.2 傳統(tǒng)語音合成207
11.2.1 共振峰合成208
11.2.2 線性預測分析合成210
11.2.3 基音同步疊加212
11.2.4 統(tǒng)計參數(shù)語音合成219
11.3 基于深度學習的端到端語音合成223
11.3.1 基于WaveNet的語音合成223
11.3.2 基于FastSpeech的語音合成225
習題11226
第12章 語音情感識別原理及應用227
12.1 情感的劃分227
12.1.1 離散情感劃分227
12.1.2 情感維度空間228
12.1.3 其他情感模型231
12.2 情感語音數(shù)據(jù)庫232
12.2.1 情感語音數(shù)據(jù)庫建立原則與方法232
12.2.2 常用情感語音數(shù)據(jù)庫233
12.3 語音情感特征及識別模型的應用234
12.3.1 傳統(tǒng)語音情感特征234
12.3.2 基于經(jīng)驗模態(tài)分解的特征238
12.3.3 語音情感的非線性特征242
12.3.4 深度神經(jīng)網(wǎng)絡在語音情感識別中的應用249
習題12251
第13章 語音增強原理及應用252
13.1 語音特性和數(shù)據(jù)庫252
13.1.1 語音和噪聲的主要特性252
13.1.2 語音和噪聲數(shù)據(jù)庫253
13.2 語音增強算法的分類254
13.2.1 無監(jiān)督語音增強算法254
13.2.2 有監(jiān)督語音增強算法255
13.3 傳統(tǒng)語音增強算法及MATLAB實現(xiàn)257
13.3.1 譜減法257
13.3.2 維納濾波法260
13.3.3 最小均方誤差法263
13.4 基于深度學習的語音增強算法266
13.4.1 基于卷積神經(jīng)網(wǎng)絡的語音增強267
13.4.2 基于長短期記憶網(wǎng)絡的語音增強273
13.4.3 基于生成對抗網(wǎng)絡的語音增強275
習題13278
第14章 語音質(zhì)量評價和可懂度評價279
14.1 語音質(zhì)量與可懂度279
14.2 語音質(zhì)量的主觀評價方法279
14.3 語音可懂度的主觀評價方法281
14.4 語音質(zhì)量客觀評價方法283
14.4.1 時域和頻域分段信噪比方法及MATLAB實現(xiàn)283
14.4.2 基于LPC客觀評價方法及MATLAB實現(xiàn)287
14.4.3 語音質(zhì)量的感知(PESQ)評價方法及MATLAB實現(xiàn)290
14.5 語音可懂度客觀評價方法294
14.5.1 頻域加權(quán)分段信噪比評價方法及MATLAB實現(xiàn)294
14.5.2 歸一化協(xié)方差(NCM)評價方法及MATLAB實現(xiàn)298
習題14301
參考文獻302