本書作為基于深度學習的自然語言處理基礎教程,介紹基于深度學習的自然語言處理領域的各種技術范式以及相關概念,構(gòu)建該領域的知識體系,幫助讀者對該領域知識有全面和系統(tǒng)的了解。全書共12章,分別介紹深度學習自然語言處理數(shù)據(jù)資源、常用的神經(jīng)網(wǎng)絡模型、語言模型的基本概念、注意力機制的基本概念、自然語言處理基本任務及建模方法、預訓練語言模型,以及典型的自然語言處理核心任務模型。
更多科學出版社服務,請掃碼獲取。
1982.9~1986.7 太原理工大學 本科 學士
1994.9~2000.6 北京科技大學 碩士/博士1986.7~ 1994.8 太原理工大學 計算中心任教 助教
2000.7~2013 北京科技大學 自動化系 副教授/教授,博導
2013~現(xiàn)在, 中國科學院信息工程研究所, 研究員控制科學與工程 人工智能方向作為通訊作者、第一作者發(fā)表論文60篇,其中SCI檢索30篇、EI檢索50篇;專利成果26個;發(fā)表學術著作2個無
目錄
前言
第1章 緒論 1
1.1 人工智能與自然語言處理 1
1.1.1 人工智能 1
1.1.2 自然語言處理 1
1.1.3 自然語言處理知識體系 2
1.2 自然語言處理任務 2
1.3 自然語言處理技術 3
1.3.1 自然語言處理學派 3
1.3.2 自然語言處理發(fā)展歷程及技術變遷 4
1.4 自然語言處理技術支撐理論及資源 6
1.5 本書知識體系 8
參考文獻 10
第2章 深度學習自然語言處理數(shù)據(jù)資源 11
2.1 任務數(shù)據(jù)資源 12
2.1.1 文本分類 12
2.1.2 情感分析 12
2.1.3 機器翻譯 13
2.1.4 文本摘要 13
2.1.5 機器閱讀理解 14
2.1.6 問答系統(tǒng) 14
2.2 預訓練數(shù)據(jù)資源 15
2.2.1 網(wǎng)頁數(shù)據(jù) 15
2.2.2 書籍 16
2.2.3 學術資料 17
2.2.4 維基百科 17
2.2.5 代碼 18
2.3 預訓練微調(diào)數(shù)據(jù)資源 18
2.3.1 指令微調(diào)數(shù)據(jù)集 18
2.3.2 人類價值觀對齊數(shù)據(jù)集 19
2.4 其他資源 20
2.5 本章小結(jié) 21
參考文獻 21
第3章 深度學習基礎知識 25
3.1 神經(jīng)網(wǎng)絡基本概念 25
3.1.1 人工神經(jīng)網(wǎng)絡 25
3.1.2 神經(jīng)網(wǎng)絡基本特征 25
3.2 前饋神經(jīng)網(wǎng)絡 26
3.2.1 人工神經(jīng)元模型 26
3.2.2 激活函數(shù) 26
3.2.3 前饋神經(jīng)網(wǎng)絡模型結(jié)構(gòu) 29
3.2.4 神經(jīng)網(wǎng)絡的梯度下降法 30
3.2.5 前饋神經(jīng)網(wǎng)絡的反向傳播算法 30
3.3 卷積神經(jīng)網(wǎng)絡 32
3.3.1 概述 32
3.3.2 卷積神經(jīng)網(wǎng)絡結(jié)構(gòu) 32
3.3.3 卷積神經(jīng)網(wǎng)絡學習 34
3.3.4 卷積神經(jīng)網(wǎng)絡應用 34
3.4 循環(huán)神經(jīng)網(wǎng)絡 35
3.4.1 概述 35
3.4.2 循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu) 35
3.4.3 循環(huán)神經(jīng)網(wǎng)絡訓練 36
3.4.4 梯度消失和爆炸 37
3.4.5 循環(huán)神經(jīng)網(wǎng)絡變體 38
3.4.6 循環(huán)神經(jīng)網(wǎng)絡應用 39
3.5 本章小結(jié) 40
參考文獻 40
第4章 語言模型與詞向量 41
4.1 統(tǒng)計語言模型 41
4.1.1 語言模型基本概念 41
4.1.2 語言模型參數(shù)學習 43
4.1.3 參數(shù)的數(shù)據(jù)平滑 44
4.1.4 語言模型性能評估 45
4.1.5 語言模型應用 46
4.1.6 語言模型變體擴展 47
4.2 神經(jīng)網(wǎng)絡語言模型 49
4.2.1 神經(jīng)網(wǎng)絡語言模型概述 49
4.2.2 前饋神經(jīng)網(wǎng)絡語言模型 50
4.2.3 循環(huán)神經(jīng)網(wǎng)絡語言模型 52
4.2.4 循環(huán)神經(jīng)網(wǎng)絡語言模型變體 54
4.3 淺層詞向量 56
4.3.1 詞表示概述 57
4.3.2 經(jīng)典詞向量表示模型 60
4.3.3 詞向量特征及應用 67
4.4 本章小結(jié) 68
參考文獻 68
第5章 自然語言處理中的注意力機制 69
5.1 注意力機制概述 69
5.2 注意力模塊 70
5.2.1 注意力模塊結(jié)構(gòu) 70
5.2.2 模塊訓練與評估 71
5.2.3 注意力模塊相關術語 71
5.3 傳統(tǒng)注意力模塊應用 72
5.4 注意力編碼機制模塊應用 73
5.4.1 單一向量編碼 74
5.4.2 不同序列間的編碼 75
5.4.3 同一序列間的編碼 76
5.5 本章小結(jié) 77
參考文獻 77
第6章 自然語言處理基本任務 78
6.1 文本分類 78
6.1.1 文本分類任務概述 78
6.1.2 神經(jīng)網(wǎng)絡文本分類方法 78
6.1.3 文本分類評估指標 81
6.2 文本匹配 83
6.2.1 文本匹配任務概述 83
6.2.2 文本匹配方法 83
6.3 序列標注 84
6.3.1 序列標注任務概述 84
6.3.2 神經(jīng)網(wǎng)絡序列標注方法 85
6.3.3 典型神經(jīng)網(wǎng)絡序列標注模型 86
6.4 序列生成 88
6.4.1 序列生成任務定義 88
6.4.2 序列生成模型 88
6.4.3 生成式解碼模型 89
6.4.4 選擇式解碼模型 97
6.4.5 選擇-生成混合解碼模型 98
6.4.6 序列生成模型評估指標 100
6.5 本章小結(jié) 101
參考文獻 101
第7章 預訓練語言模型 102
7.1 預訓練語言模型概述 102
7.1.1 預訓練語言模型基本思想 102
7.1.2 預訓練語言模型發(fā)展歷程 103
7.2 預訓練語言模型+精調(diào)階段(第三范式) 104
7.2.1 編碼器結(jié)構(gòu):BERT 104
7.2.2 解碼器結(jié)構(gòu):GPT-1 106
7.2.3 編碼-解碼器結(jié)構(gòu):BART 107
7.3 預訓練語言模型+提示工程階段(第四范式) 108
7.3.1 提示學習 109
7.3.2 答案工程 110
7.3.3 提示微調(diào)策略 111
7.4 大語言模型+提示工程階段(第五范式) 111
7.4.1 第一代大語言模型:快回答 112
7.4.2 第二代大語言模型:慢思考 121
7.5 國產(chǎn)大語言模型杰出代表:DeepSeek-R1 127
7.5.1 DeepSeek-V系列語言模型 128
7.5.2 DeepSeek-R系列推理模型 129
7.6 本章小結(jié) 133
參考文獻 133
第8章 機器翻譯 136
8.1 深度學習機器翻譯概述 136
8.2 典型神經(jīng)機器翻譯模型 137
8.2.1 RNN編碼-解碼模型 137
8.2.2 基于注意力機制的RNN 編碼-解碼模型 137
8.2.3 谷歌神經(jīng)機器翻譯系統(tǒng) 138
8.2.4 卷積編碼-解碼模型 138
8.2.5 Transformer模型 139
8.3 神經(jīng)機器翻譯解碼策略改進 140
8.3.1 推敲網(wǎng)絡 140
8.3.2 非自回歸機器翻譯模型 142
8.3.3 基于隱變量的非自回歸模型 142
8.4 神經(jīng)機器翻譯系統(tǒng)需要考慮的問題 143
8.4.1 詞表受限問題 144
8.4.2 翻譯覆蓋率問題 144
8.4.3 系統(tǒng)魯棒性問題 145
8.5 低資源神經(jīng)機器翻譯 146
8.5.1 少量雙語語料和大量單語語料 146
8.5.2 無雙語語料只有單語語料 147
8.6 多語言預訓練語言模型 148
8.6.1 XLM 148
8.6.2 mBART 148
8.7 本章小結(jié) 149
參考文獻 149
第9章 情感分析 151
9.1 情感分析概述 151
9.2 情感極性分類 152
9.2.1 任務定義 152
9.2.2 任務框架 152
9.2.3 技術路線 153
9.3 屬性情感分析 154
9.3.1 任務定義 154
9.3.2 技術路線 154
9.4 本章小結(jié) 157
參考文獻 157
第10章 信息抽取 159
10.1 信息抽取概述 159
10.1.1 基本概念 159
10.1.2 發(fā)展歷史 159
10.1.3 任務定義 160
10.2 命名實體識別 160
10.2.1 相關概念 160
10.2.2 簡單命名實體識別 161
10.2.3 復雜命名實體識別 162
10.3 關系抽取 164
10.3.1 任務定義 164
10.3.2 主要方法 164
10.4 事件抽取 166
10.4.1 任務定義 167
10.4.2 任務實現(xiàn)步驟 167
10.4.3 任務實現(xiàn)方法 167
10.4.3 評估 171
10.5 本章小結(jié) 172
參考文獻 172
第11章 機器閱讀理解 173
11.1 機器閱讀理解概述 173
11.2 任務定義 174
11.3 神經(jīng)機器閱讀理解模型框架 174
11.4 神經(jīng)機器閱讀理解各類任務及典型模型 176
11.4.1 完形填空式機器閱讀理解任務 176
11.4.2 多項選擇式機器閱讀理解任務 177
11.4.3 片段抽取式機器閱讀理解任務 178
11.4.4 自由生成式機器閱讀理解任務 180
11.5 機器閱讀理解的主要挑戰(zhàn)與開放性問題 182
11.5.1 機器閱讀理解的可解釋性 182
11.5.2 機器閱讀理解的魯棒性 182
11.5.3 機器閱讀理解的長文章理解能力 182
11.5.4 機器閱讀理解的輸入文本受限 183
11.5.5 機器閱讀理解的推理能力 183
11.5.6 機器閱讀理解的已知知識利用 183
11.5.7 機器閱讀理解的自主利用無標注資源 184
11.5.8 機器閱讀理解的遷移能力 184
11.6 本章小結(jié) 184
參考文獻 184
第12章 對話系統(tǒng) 187
12.1 對話系統(tǒng)概述 187
12.1.1 背景 187
12.1.2 對話系統(tǒng)的特點與分類 187
12.2 開放領域?qū)υ?187
12.2.1 基于檢索的開放領域?qū)υ捪到y(tǒng) 188
12.2.2 基于生成的開放領域?qū)υ捪到y(tǒng) 188
12.2.3 檢索-生成融合的開放領域?qū)υ捪到y(tǒng) 189
12.2.4 開放領域?qū)υ捪到y(tǒng)中的關鍵問題 189
12.3 任務型對話 192
12.3.1 基于管道結(jié)構(gòu)的任務型對話系統(tǒng) 192
12.3.2 基于端到端的任務型對話系統(tǒng) 194
12.3.3 任務型對話系統(tǒng)發(fā)展趨勢 196
12.4 本章小結(jié) 197
參考文獻 197