本書通過系統(tǒng)而全面的介紹,幫助讀者深入理解和掌握圖機(jī)器學(xué)習(xí)的基本原理、方法和技術(shù);同時,通過豐富的案例和實(shí)踐經(jīng)驗(yàn),展示了圖機(jī)器學(xué)習(xí)在各個領(lǐng)域的應(yīng)用價值和廣闊前景。
本書基于斯坦福大學(xué)圖機(jī)器學(xué)習(xí)CS224W課程的內(nèi)容編寫,結(jié)合作者自身和團(tuán)隊學(xué)生在圖機(jī)器學(xué)習(xí)中的痛點(diǎn)和實(shí)踐經(jīng)驗(yàn),重新梳理知識脈絡(luò),重點(diǎn)介紹圖機(jī)器學(xué)習(xí)的相關(guān)知識,并對前沿的圖機(jī)器學(xué)習(xí)會議論文和網(wǎng)絡(luò)科學(xué)的最新發(fā)展趨勢進(jìn)行探討與展望。
本書適合所有對圖機(jī)器學(xué)習(xí)感興趣的讀者參考。
1.基于圖機(jī)器學(xué)習(xí)方向經(jīng)典課程——斯坦福大學(xué)圖機(jī)器學(xué)習(xí)CS224w編寫,獲得Jure Leskovec教授的授權(quán)
2.配套資源豐富,助力學(xué)習(xí)——配有視頻、PPT、代碼
3.理論知識+前沿成果+實(shí)際應(yīng)用——降低學(xué)習(xí)難度
武強(qiáng),蘭州大學(xué)副研究員。長期從事人工智能與復(fù)雜系統(tǒng)領(lǐng)域的交叉研究,參與并主
持多個重點(diǎn)科研項(xiàng)目,致力于推動前沿人工智能技術(shù)在交通、氣象等領(lǐng)域的行業(yè)落地應(yīng)用。多項(xiàng)成果已成功轉(zhuǎn)化并應(yīng)用于我國城市交通系統(tǒng)。在ICML、KDD、AAAI等國
際AI會議及Future Generation Computer Systems(FGCS)、Knowledge-Based
Systems(KBS)等期刊發(fā)表論文20余篇。曾榮獲谷歌“全球機(jī)器學(xué)習(xí)開發(fā)者專家”
(Google Developer Expert,GDE)稱號。著有《人工智能技術(shù)基礎(chǔ)》《元宇宙中的硬科技》等圖書。
呂琳媛,中國科學(xué)技術(shù)大學(xué)教授,“中國青年女科學(xué)家獎”“科學(xué)探索獎”獲得者。
長期從事復(fù)雜系統(tǒng)與復(fù)雜網(wǎng)絡(luò)領(lǐng)域的研究,發(fā)表學(xué)術(shù)論文100余篇,谷歌學(xué)術(shù)引用近2
萬次。2019年入選《麻省理工科技評論》“中國35歲以下科技創(chuàng)新35人”,2020年獲“系統(tǒng)科學(xué)與系統(tǒng)工程科學(xué)技術(shù)獎——青年科技獎”,2022年獲Erd?s–Rényi Prize獎。出版《鏈路預(yù)測》《重塑:信息經(jīng)濟(jì)的結(jié)構(gòu)》《網(wǎng)絡(luò)滲流》《反常識》等圖書。
第 1章 引言 1
1.1 圖機(jī)器學(xué)習(xí)概述 2
1.1.1 為什么需要圖機(jī)器學(xué)習(xí) 2
1.1.2 圖機(jī)器學(xué)習(xí)的分類 3
1.2 圖機(jī)器學(xué)習(xí)應(yīng)用 5
1.3 圖機(jī)器學(xué)習(xí)任務(wù) 8
1.3.1 節(jié)點(diǎn)預(yù)測 8
1.3.2 鏈接預(yù)測 8
1.3.3 整圖預(yù)測 9
1.4 圖機(jī)器學(xué)習(xí)展望 9
1.5 本章小結(jié) 10
1.6 參考文獻(xiàn) 10
第 2章 圖機(jī)器學(xué)習(xí)基礎(chǔ) 12
2.1 圖論基礎(chǔ) 13
2.1.1 基本概念 13
2.1.2 表示方法 15
2.1.3 節(jié)點(diǎn)重要性指標(biāo) 16
2.1.4 異質(zhì)圖 20
2.1.5 圖生成模型 22
2.1.6 網(wǎng)絡(luò)子圖 28
2.1.7 網(wǎng)絡(luò)社區(qū) 30
2.2 機(jī)器學(xué)習(xí)基礎(chǔ) 34
2.2.1 感知機(jī) 34
2.2.2 深度學(xué)習(xí) 35
2.2.3 激活函數(shù) 36
2.2.4 損失函數(shù)和梯度下降 37
2.2.5 反向傳播 39
2.3 本章小結(jié) 39
2.4 參考文獻(xiàn) 39
第3章 基于圖基礎(chǔ)結(jié)構(gòu)特征的圖機(jī)器學(xué)習(xí) 41
3.1 圖基礎(chǔ)結(jié)構(gòu)特征與圖機(jī)器學(xué)習(xí) 42
3.2 基于節(jié)點(diǎn)特征的圖機(jī)器學(xué)習(xí) 43
3.2.1 用聚類系數(shù)表示節(jié)點(diǎn)特征 43
3.2.2 用圖元向量表示節(jié)點(diǎn)特征 44
3.3 基于鏈接特征的圖機(jī)器學(xué)習(xí) 46
3.3.1 基于距離的特征 46
3.3.2 局部鄰域重疊 47
3.3.3 全局鄰域重疊 48
3.4 基于整圖特征的圖機(jī)器學(xué)習(xí) 49
3.4.1 基于圖內(nèi)核的表示方法 49
3.4.2 基于圖元特征的表示方法 49
3.4.3 基于WL內(nèi)核的表示方法 50
3.5 本章小結(jié) 53
3.6 參考文獻(xiàn) 53
第4章 圖嵌入表示 54
4.1 為什么需要圖嵌入 55
4.2 圖嵌入的編/解碼架構(gòu) 56
4.3 節(jié)點(diǎn)嵌入 57
4.3.1 淺層嵌入 57
4.3.2 隨機(jī)游走嵌入 58
4.3.3 有偏隨機(jī)游走嵌入 60
4.4 整圖嵌入 62
4.4.1 求和法 62
4.4.2 虛擬節(jié)點(diǎn)法 63
4.4.3 匿名游走嵌入 63
4.4.4 可學(xué)習(xí)游走嵌入 64
4.4.5 整圖嵌入的應(yīng)用 65
4.5 本章小結(jié) 65
4.6 參考文獻(xiàn) 66
第5章 圖矩陣分解 67
5.1 矩陣分解與節(jié)點(diǎn)嵌入 68
5.1.1 矩陣分解 68
5.1.2 矩陣分解與隨機(jī)游走的局限性 69
5.2 PageRank算法 70
5.2.1 PageRank算法背景 70
5.2.2 PageRank矩陣表示 71
5.2.3 PageRank與隨機(jī)游走 72
5.3 PageRank計算和優(yōu)化 73
5.3.1 冪迭代法 73
5.3.2 PageRank存在的問題 73
5.3.3 PageRank算法的局限性 74
5.3.4 個性化PageRank和帶重啟的隨機(jī)游走 75
5.4 本章小結(jié) 76
5.5 參考文獻(xiàn) 77
第6章 消息傳遞與節(jié)點(diǎn)分類 78
6.1 網(wǎng)絡(luò)關(guān)聯(lián)與集體分類 79
6.1.1 網(wǎng)絡(luò)關(guān)聯(lián) 79
6.1.2 集體分類 80
6.2 關(guān)系分類 81
6.3 迭代分類 83
6.3.1 迭代分類定義 83
6.3.2 迭代分類方法 83
6.3.3 迭代分類過程舉例 84
6.4 信念傳播 85
6.4.1 信念傳播定義 86
6.4.2 信念傳播過程 86
6.4.3 信念傳播的優(yōu)點(diǎn)和不足 87
6.5 矯正與平滑 87
6.5.1 C&S方法介紹 88
6.5.2 用C&S方法處理節(jié)點(diǎn)預(yù)測問題 88
6.6 本章小結(jié) 92
6.7 參考文獻(xiàn) 92
第7章 圖神經(jīng)網(wǎng)絡(luò)研究思路與經(jīng)典模型 93
7.1 圖神經(jīng)網(wǎng)絡(luò)的研究思路 94
7.1.1 圖神經(jīng)網(wǎng)絡(luò)基礎(chǔ) 94
7.1.2 圖神經(jīng)網(wǎng)絡(luò)方法 97
7.1.3 圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練 98
7.2 圖神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 99
7.2.1 網(wǎng)絡(luò)結(jié)構(gòu) 100
7.2.2 批量標(biāo)準(zhǔn)化 100
7.2.3 Dropout方法 101
7.3 經(jīng)典圖神經(jīng)網(wǎng)絡(luò):圖卷積神經(jīng)網(wǎng)絡(luò) 102
7.3.1 GCN的空域理解 102
7.3.2 圖傅里葉變換 104
7.3.3 圖卷積神經(jīng)網(wǎng)絡(luò)的譜域解釋 105
7.4 經(jīng)典圖神經(jīng)網(wǎng)絡(luò):GraphSAGE和GAT 107
7.4.1 GraphSAGE 107
7.4.2 GAT 108
7.5 代碼實(shí)踐 109
7.6 本章小結(jié) 111
7.7 參考文獻(xiàn) 111
第8章 圖神經(jīng)網(wǎng)絡(luò)設(shè)計 112
8.1 多層圖神經(jīng)網(wǎng)絡(luò)設(shè)計 113
8.1.1 過度平滑問題的產(chǎn)生 113
8.1.2 過度平滑的解決思路 113
8.2 圖增強(qiáng)設(shè)計 115
8.2.1 圖特征增強(qiáng) 115
8.2.2 圖結(jié)構(gòu)增強(qiáng) 116
8.3 圖神經(jīng)網(wǎng)絡(luò)表達(dá)能力設(shè)計 118
8.3.1 圖神經(jīng)網(wǎng)絡(luò)表達(dá)能力概述 119
8.3.2 GCN和GraphSAGE的表達(dá)能力分析 120
8.4 圖同構(gòu)網(wǎng)絡(luò)模型 122
8.4.1 重集上的單射函數(shù) 122
8.4.2 GIN模型設(shè)計 122
8.4.3 GIN模型與WL圖內(nèi)核的聯(lián)系 123
8.5 本章小結(jié) 124
8.6 參考文獻(xiàn) 125
第9章 圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練 126
9.1 圖神經(jīng)網(wǎng)絡(luò)預(yù)測頭設(shè)置 127
9.1.1 節(jié)點(diǎn)級別任務(wù) 127
9.1.2 鏈接級別任務(wù) 128
9.1.3 圖級別任務(wù) 128
9.2 圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練基礎(chǔ)條件 130
9.2.1 損失函數(shù) 130
9.2.2 評估函數(shù) 131
9.3 圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程 134
9.3.1 數(shù)據(jù)集劃分 134
9.3.2 GNN訓(xùn)練流程 137
9.3.3 GNN設(shè)置和調(diào)試 137
9.4 代碼實(shí)踐 138
9.4.1 數(shù)據(jù)介紹 138
9.4.2 多層 GNN 模型實(shí)現(xiàn) 139
9.4.3 訓(xùn)練和測試過程 141
9.5 本章小結(jié) 143
9.6 參考文獻(xiàn) 143
第 10章 圖神經(jīng)網(wǎng)絡(luò)優(yōu)化 144
10.1 圖神經(jīng)網(wǎng)絡(luò)的局限性 145
10.1.1 結(jié)構(gòu)識別缺陷 145
10.1.2 位置識別缺陷 146
10.1.3 圖同構(gòu)測試限制GNN的表達(dá)能力上限 147
10.2 圖神經(jīng)網(wǎng)絡(luò)的優(yōu)化思路 147
10.2.1 基于位置感知的GNN優(yōu)化 148
10.2.2 基于身份感知的GNN優(yōu)化 149
10.3 圖神經(jīng)網(wǎng)絡(luò)的魯棒性分析 153
10.3.1 深度學(xué)習(xí)的魯棒性 153
10.3.2 GNN的魯棒性 153
10.4 本章小結(jié) 156
10.5 參考文獻(xiàn) 157
第 11章 大規(guī)模圖神經(jīng)網(wǎng)絡(luò) 158
11.1 GNN在大規(guī)模網(wǎng)絡(luò)中的應(yīng)用 159
11.1.1 大規(guī)模圖應(yīng)用場景 159
11.1.2 大規(guī)模圖應(yīng)用問題 159
11.2 鄰域抽樣模型 160
11.2.1 模型思路 161
11.2.2 重啟隨機(jī)游走算法 162
11.2.3 避免冗余計算的模型 162
11.3 Cluster-GCN模型 163
11.3.1 模型思路 164
11.3.2 模型訓(xùn)練 165
11.3.3 模型優(yōu)化 166
11.4 Simplifying-GCN模型 166
11.4.1 模型思路 167
11.4.2 模型訓(xùn)練 167
11.5 本章小結(jié) 168
11.6 參考文獻(xiàn) 168
第 12章 圖神經(jīng)網(wǎng)絡(luò)在知識圖譜中的應(yīng)用 169
12.1 關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò) 170
12.1.1 R-GCN模型介紹 170
12.1.2 R-GCN的擴(kuò)展性 172
12.1.3 R-GCN的應(yīng)用 172
12.2 知識圖譜初步 174
12.2.1 知識圖譜概念 174
12.2.2 知識圖譜補(bǔ)全 175
12.3 知識圖譜查詢 179
12.3.1 基礎(chǔ)查詢 180
12.3.2 高級查詢 181
12.4 知識圖譜構(gòu)建和存儲 187
12.4.1 知識圖譜構(gòu)建 187
12.4.2 知識圖譜存儲 189
12.5 本章小結(jié) 190
12.6 參考文獻(xiàn) 190
第 13章 圖神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)科學(xué)領(lǐng)域的應(yīng)用 191
13.1 深度圖生成模型 192
13.1.1 深度圖生成模型初步 192
13.1.2 GraphRNN圖生成模型 194
13.1.3 圖生成模型的評估和優(yōu)化 197
13.2 基于圖神經(jīng)網(wǎng)絡(luò)的子圖挖掘 201
13.2.1 子圖嵌入表示 201
13.2.2 識別高頻子圖結(jié)構(gòu) 204
13.3 基于圖神經(jīng)網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn) 206
13.3.1 Louvain算法 206
13.3.2 重疊社區(qū)檢測算法BigCLAM和NOCD 210
13.4 本章小結(jié) 215
13.5 參考文獻(xiàn) 215
第 14章 圖神經(jīng)網(wǎng)絡(luò)在推薦系統(tǒng)和自然語言處理中的應(yīng)用 216
14.1 圖神經(jīng)網(wǎng)絡(luò)與推薦系統(tǒng) 217
14.1.1 推薦系統(tǒng)概述 217
14.1.2 基于圖節(jié)點(diǎn)嵌入的推薦模型 218
14.1.3 基于協(xié)同過濾的GNN推薦模型 220
14.1.4 大規(guī)模圖神經(jīng)網(wǎng)絡(luò)推薦模型PinSAGE 225
14.2 圖神經(jīng)網(wǎng)絡(luò)與自然語言處理 227
14.2.1 自然語言處理概要 227
14.2.2 NLP中圖的構(gòu)建與處理 230
14.2.3 基于圖的編碼器-解碼器模型 233
14.2.4 圖在自然語言處理中的具體應(yīng)用 235
14.3 本章小結(jié) 238
14.4 參考文獻(xiàn) 239
第 15章 圖神經(jīng)網(wǎng)絡(luò)在自然科學(xué)研究中的應(yīng)用 242
15.1 圖神經(jīng)網(wǎng)絡(luò)在物理學(xué)中的應(yīng)用 243
15.1.1 圖神經(jīng)網(wǎng)絡(luò)重新發(fā)現(xiàn)萬有引力定律 243
15.1.2 用圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)復(fù)雜物理世界的仿真模擬 244
15.2 圖神經(jīng)網(wǎng)絡(luò)在生物化學(xué)和醫(yī)療領(lǐng)域的應(yīng)用 245
15.2.1 GNN輔助藥物發(fā)現(xiàn) 246
15.2.2 GNN預(yù)測蛋白質(zhì)折疊結(jié)構(gòu) 248
15.2.3 GNN輔助醫(yī)療診斷 250
15.2.4 GNN與天氣預(yù)報 251
15.3 本章小結(jié) 252
15.4 參考文獻(xiàn) 252
第 16章 總結(jié)和展望 253
16.1 圖機(jī)器學(xué)習(xí)模型及應(yīng)用 254
16.1.1 圖機(jī)器學(xué)習(xí)模型總結(jié) 254
16.1.2 圖機(jī)器學(xué)習(xí)應(yīng)用總結(jié) 254
16.2 圖機(jī)器學(xué)習(xí)未來展望 255
16.2.1 預(yù)訓(xùn)練圖神經(jīng)網(wǎng)絡(luò) 255
16.2.2 雙曲圖神經(jīng)網(wǎng)絡(luò) 255
16.2.3 圖機(jī)器學(xué)習(xí)與其他技術(shù)的結(jié)合 256