全書共分10 章,全面介紹知識(shí)增強(qiáng)大模型涉及的各類技術(shù),涵蓋大模型、向量數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)、知識(shí)圖譜、檢索增強(qiáng)生成、GraphRAG 等內(nèi)容,并輔以豐富的實(shí)例、精心繪制的插圖和深入淺出的技術(shù)解析,幫助讀者快速掌握知識(shí)增強(qiáng)大模型的理論,引導(dǎo)讀者逐步構(gòu)建知識(shí)增強(qiáng)大模型應(yīng)用。本書既可以作為人工智能相關(guān)的技術(shù)從業(yè)者、企業(yè)或機(jī)構(gòu)管理者的工具書,指導(dǎo)實(shí)際工作;也適合作為人工智能、計(jì)算機(jī)等相關(guān)專業(yè)高年級(jí)本科生或研究生學(xué)習(xí)知識(shí)增強(qiáng)大模型應(yīng)用開發(fā)的入門圖書和進(jìn)階指南。
王文廣,高級(jí)工程師,浙江大學(xué)碩士,浦東新區(qū)“明珠計(jì)劃”菁英人才,省部級(jí)科技進(jìn)步獎(jiǎng)獲得者,人工智能標(biāo)準(zhǔn)編制專家,浦東新區(qū)首席技師,騰訊云最具價(jià)值專家(TVP),中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟突出貢獻(xiàn)個(gè)人,曾出版《知識(shí)圖譜:認(rèn)知智能理論與實(shí)戰(zhàn)》一書,致力于推進(jìn)通用人工智能技術(shù)的研究和應(yīng)用,F(xiàn)為上海市人工智能標(biāo)準(zhǔn)化技術(shù)委員會(huì)委員、上海市科學(xué)技術(shù)委員會(huì)評(píng)審專家、中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員、中國(guó)中文信息學(xué)會(huì)(CIPS)語(yǔ)言與知識(shí)計(jì)算專委會(huì)委員、中國(guó)人工智能學(xué)會(huì)(CAAI)深度學(xué)習(xí)專委會(huì)委員、上海市人工智能技術(shù)協(xié)會(huì)專委會(huì)委員,曾參與編制十余項(xiàng)(篇)人工智能領(lǐng)域的標(biāo)準(zhǔn),發(fā)表數(shù)十項(xiàng)人工智能領(lǐng)域的國(guó)家發(fā)明專利和學(xué)術(shù)論文,并參與編寫多本人工智能方面的圖書。
第1章 緒論:迎接大模型紀(jì)元 0
1.1 大模型崛起 2
1.2 大模型的固有特性 4
1.2.1 幻覺 5
1.2.2 知識(shí)陳舊 6
1.3 知識(shí)增強(qiáng)大模型 6
1.4 迎接大模型紀(jì)元 8
第2章 大語(yǔ)言模型 10
2.1 大模型概述 12
2.2 語(yǔ)言模型簡(jiǎn)史 14
2.3 大模型為何如此強(qiáng)大 20
2.3.1 語(yǔ)言模型與無(wú)監(jiān)督學(xué)習(xí) 21
2.3.2 人類反饋強(qiáng)化學(xué)習(xí) 22
2.3.3 情境學(xué)習(xí)與思維鏈 24
2.4 如何使用大模型 29
2.4.1 翻譯 30
2.4.2 文本摘要 31
2.4.3 求解數(shù)學(xué)問題 31
2.4.4 語(yǔ)言學(xué)習(xí)和考試 32
2.4.5 高效撰寫文章 34
2.4.6 自動(dòng)化編程和輔助編程 35
2.4.7 數(shù)據(jù)分析 38
2.5 垂直大模型 40
2.5.1 什么是垂直大模型 41
2.5.2 垂直大模型的特點(diǎn) 41
2.6 思考題 42
2.7 本章小結(jié) 43
第3章 向量數(shù)據(jù)庫(kù) 44
3.1 向量表示與嵌入 46
3.1.1 語(yǔ)言的向量表示 47
3.1.2 圖像的向量表示 48
3.1.3 知識(shí)圖譜的向量表示 49
3.2 向量相似度 49
3.2.1 L2距離 50
3.2.2 余弦相似度 51
3.2.3 內(nèi)積相似度 52
3.2.4 L1距離 53
3.3 向量索引與檢索方法 54
3.3.1 最近鄰檢索和近似最近鄰檢索 55
3.3.2 局部敏感哈希算法 56
3.3.3 基于圖結(jié)構(gòu)的HNSW算法 58
3.3.4 向量量化與乘積量化 63
3.4 Milvus向量數(shù)據(jù)庫(kù) 65
3.4.1 Milvus架構(gòu) 66
3.4.2 向量索引方法 68
3.4.3 向量檢索方法 70
3.4.4 數(shù)據(jù)一致性 70
3.4.5 用戶認(rèn)證與權(quán)限控制 72
3.5 Milvus向量數(shù)據(jù)庫(kù)實(shí)戰(zhàn)指南 73
3.5.1 安裝、配置和運(yùn)行Milvus 73
3.5.2 連接服務(wù)器和創(chuàng)建數(shù)據(jù)庫(kù) 75
3.5.3 數(shù)據(jù)準(zhǔn)備 76
3.5.4 創(chuàng)建集合 77
3.5.5 創(chuàng)建索引 80
3.5.6 插入數(shù)據(jù) 81
3.5.7 載入數(shù)據(jù) 82
3.5.8 標(biāo)量查詢 83
3.5.9 單向量檢索 84
3.5.10 混合檢索 87
3.6 其他主流的向量數(shù)據(jù)庫(kù)系統(tǒng)與工具 91
3.6.1 原生向量數(shù)據(jù)庫(kù) 91
3.6.2 數(shù)據(jù)庫(kù)的向量處理擴(kuò)展 92
3.6.3 向量索引和檢索庫(kù) 93
3.7 思考題 94
3.8 本章小結(jié) 94
第4章 檢索增強(qiáng)生成 96
4.1 檢索增強(qiáng)生成概述 98
4.2 為什么需要RAG 99
4.2.1 RAG、SFT與LoRA 99
4.2.2 長(zhǎng)上下文與RAG 102
4.2.3 鋰電池供應(yīng)鏈管理案例 103
4.2.4 RAG的特點(diǎn) 105
4.3 通用的RAG流程 106
4.3.1 創(chuàng)建知識(shí)庫(kù) 107
4.3.2 知識(shí)檢索 107
4.3.3 大模型生成答案 108
4.3.4 質(zhì)量評(píng)估與迭代優(yōu)化 109
4.4 使用Dify構(gòu)建RAG系統(tǒng) 110
4.4.1 Dify概述 110
4.4.2 安裝Dify 111
4.4.3 初始化Dify 115
4.4.4 創(chuàng)建知識(shí)庫(kù) 116
4.4.5 簡(jiǎn)單的RAG應(yīng)用 119
4.4.6 RAG效果優(yōu)化 121
4.4.7 引入Elasticsearch 123
4.4.8 構(gòu)建RAG系統(tǒng) 129
4.5 RAG系統(tǒng)的最佳實(shí)踐 135
4.5.1 文本分塊 135
4.5.2 分層檢索 136
4.5.3 查詢改寫 137
4.5.4 檢索路由 138
4.6 其他主流的RAG系統(tǒng)框架 138
4.6.1 LobeChat 138
4.6.2 Quivr 139
4.6.3 LlamaIndex 139
4.6.4 Open WebUI 139
4.7 思考題 140
4.8 本章小結(jié) 140
第5章 知識(shí)圖譜技術(shù)體系 142
5.1 什么是知識(shí)圖譜 144
5.1.1 知識(shí)圖譜的相關(guān)概念及其定義 144
5.1.2 知識(shí)圖譜實(shí)例 146
5.1.3 大腦的聯(lián)想機(jī)制與知識(shí)圖譜的關(guān)系建模 147
5.2 DIKW模型與知識(shí)圖譜 149
5.2.1 DIKW模型 149
5.2.2 從DIKW模型到知識(shí)圖譜 150
5.2.3 知識(shí)圖譜的內(nèi)涵與外延 151
5.2.4 知識(shí)的源流與知識(shí)圖譜 152
5.3 知識(shí)圖譜的技術(shù)體系 153
5.3.1 知識(shí)圖譜模式設(shè)計(jì)與管理 153
5.3.2 知識(shí)圖譜構(gòu)建技術(shù) 154
5.3.3 知識(shí)圖譜存儲(chǔ)技術(shù) 156
5.3.4 知識(shí)圖譜應(yīng)用技術(shù) 156
5.3.5 用戶接口與界面 158
5.4 知識(shí)圖譜模式設(shè)計(jì)的基本原則 159
5.4.1 賦予一類事物合適的名字 159
5.4.2 建立事物間清晰的聯(lián)系 160
5.4.3 明確且正式的語(yǔ)義表達(dá) 161
5.5 知識(shí)圖譜模式設(shè)計(jì)的六韜法 162
5.6 大模型結(jié)合六韜法設(shè)計(jì)知識(shí)圖譜模式 165
5.6.1 場(chǎng)景:對(duì)齊參與各方的認(rèn)知 166
5.6.2 復(fù)用:站在巨人的肩膀上 168
5.6.3 事物:定義實(shí)體類型及屬性 169
5.6.4 聯(lián)系:場(chǎng)景需求之下的普遍聯(lián)系 173
5.6.5 約束:多層次的約束規(guī)范 176
5.6.6 評(píng)價(jià):迭代優(yōu)化的起點(diǎn) 182
5.7 知識(shí)圖譜模式設(shè)計(jì)的最佳實(shí)踐 182
5.7.1 熟知知識(shí)圖譜及其具體應(yīng)用領(lǐng)域 183
5.7.2 明確邊界,切記貪多嚼不爛 183
5.7.3 高內(nèi)聚、低耦合 184
5.7.4 充分利用可視化工具 185
5.8 思考題 186
5.9 本章小結(jié) 187
第6章 構(gòu)建知識(shí)圖譜 188
6.1 知識(shí)圖譜構(gòu)建技術(shù)概述 190
6.1.1 映射式構(gòu)建技術(shù) 190
6.1.2 抽取式構(gòu)建技術(shù) 192
6.2 抽取實(shí)體和實(shí)體屬性 193
6.2.1 實(shí)體、實(shí)體屬性及其抽取 193
6.2.2 用大模型抽取實(shí)體和實(shí)體屬性 196
6.3 抽取關(guān)系和關(guān)系屬性 205
6.3.1 實(shí)體間的關(guān)系和關(guān)系抽取 205
6.3.2 用大模型抽取關(guān)系和關(guān)系屬性 210
6.4 抽取事件 214
6.4.1 事件、事件要素和事件抽取 214
6.4.2 用大模型抽取事件 217
6.5 多語(yǔ)言和跨語(yǔ)言 222
6.6 知識(shí)抽取的評(píng)價(jià)指標(biāo) 223
6.7 思考題 226
6.8 本章小結(jié) 227
第7章 圖數(shù)據(jù)庫(kù)與圖計(jì)算 228
7.1 圖數(shù)據(jù)庫(kù)概述 230
7.1.1 頂點(diǎn)、邊、屬性與標(biāo)簽 230
7.1.2 圖數(shù)據(jù)庫(kù)的存儲(chǔ)與查詢 231
7.1.3 主流的圖數(shù)據(jù)庫(kù) 231
7.2 JanusGraph分布式圖數(shù)據(jù)庫(kù) 232
7.2.1 JanusGraph系統(tǒng)架構(gòu) 233
7.2.2 CAP理論與JanusGraph 234
7.2.3 與搜索引擎的集成 235
7.2.4 事務(wù)和故障修復(fù) 235
7.2.5 屬性圖模式的定義 236
7.2.6 圖查詢語(yǔ)言Gremlin 237
7.3 JanusGraph實(shí)戰(zhàn)指南 238
7.3.1 安裝、運(yùn)行和配置JanusGraph 238
7.3.2 在JanusGraph中定義屬性圖模式 243
7.3.3 為圖創(chuàng)建索引 247
7.3.4 索引的狀態(tài)及動(dòng)作 251
7.3.5 查看屬性圖模式 252
7.3.6 為圖插入頂點(diǎn)、邊和屬性 254
7.3.7 查詢的起始與終末 258
7.3.8 提取圖中元素的信息 259
7.3.9 過(guò)濾查詢條件 260
7.3.10 圖的游走 262
7.3.11 分組與聚合 263
7.3.12 分支與循環(huán) 265
7.3.13 match、map、filter和sideEffect 266
7.3.14 性能優(yōu)化工具的使用 267
7.4 JanusGraph的可視化 269
7.4.1 JanusGraph-Visualizer 269
7.4.2 其他可視化工具 270
7.5 遍歷與最短路徑算法 271
7.5.1 廣度優(yōu)先搜索 271
7.5.2 深度優(yōu)先搜索 272
7.5.3 路徑和最短路徑 274
7.6 中心性 276
7.6.1 中心性的概念及應(yīng)用 276
7.6.2 度中心性 277
7.6.3 親密中心性 279
7.6.4 中介中心性 280
7.6.5 特征向量中心性 282
7.6.6 PageRank 283
7.7 社區(qū)檢測(cè) 285
7.7.1 社區(qū)檢測(cè)概述 285
7.7.2 社區(qū)檢測(cè)算法一覽 286
7.7.3 Leiden算法實(shí)戰(zhàn) 289
7.7.4 社區(qū)檢測(cè)算法的應(yīng)用場(chǎng)景 292
7.8 思考題 294
7.9 本章小結(jié) 294
第8章 圖;パa(bǔ)應(yīng)用范式 296
8.1 圖模互補(bǔ)概述 298
8.2 圖;パa(bǔ)中的知識(shí)圖譜 299
8.2.1 知識(shí)的確定性和一致性 299
8.2.2 知識(shí)來(lái)源可追溯 299
8.2.3 知識(shí)的實(shí)時(shí)與及時(shí)更新 300
8.2.4 可解釋與可追溯的演繹推理 301
8.2.5 糾錯(cuò)機(jī)制與知識(shí)的持續(xù)維護(hù) 301
8.2.6 基于圖機(jī)器學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)的概率推理 301
8.2.7 知識(shí)圖譜的全局視野 302
8.3 圖模互補(bǔ)中的大模型 302
8.3.1 從任務(wù)描述到任務(wù)需求的理解 302
8.3.2 利用知識(shí)圖譜檢索、整合和推理結(jié)果 303
8.3.3 高質(zhì)量的自然語(yǔ)言生成 303
8.3.4 結(jié)合多源知識(shí)生成創(chuàng)新性內(nèi)容 305
8.3.5 概率推理能力與通用性 306
8.3.6 知識(shí)抽取 306
8.3.7 知識(shí)補(bǔ)全 306
8.3.8 跨語(yǔ)言知識(shí)對(duì)齊 307
8.4 圖;パa(bǔ)應(yīng)用范式的特點(diǎn) 307
8.5 大模型對(duì)知識(shí)圖譜的增強(qiáng) 308
8.5.1 增強(qiáng)知識(shí)圖譜的構(gòu)建 308
8.5.2 增強(qiáng)知識(shí)圖譜的補(bǔ)全 310
8.5.3 增強(qiáng)對(duì)知識(shí)的描述 310
8.5.4 增強(qiáng)知識(shí)圖譜的推理 312
8.5.5 增強(qiáng)知識(shí)圖譜的查詢 312
8.6 知識(shí)圖譜對(duì)大模型的增強(qiáng) 313
8.6.1 減少大模型的幻覺 313
8.6.2 內(nèi)嵌知識(shí)圖譜的大模型 314
8.6.3 提升大模型的推理能力 315
8.6.4 知識(shí)圖譜增強(qiáng)生成 316
8.6.5 提升大模型生成內(nèi)容的可解釋性 316
8.6.6 應(yīng)用案例 318
8.7 基于圖模互補(bǔ)應(yīng)用范式的智能系統(tǒng)的典型流程 318
8.8 思考題 320
8.9 本章小結(jié) 321
第9章 知識(shí)圖譜增強(qiáng)生成與GraphRAG 322
9.1 知識(shí)圖譜增強(qiáng)生成的原理 324
9.1.1 深度推理和實(shí)時(shí)推理 324
9.1.2 全局視野與深度洞察 325
9.1.3 知識(shí)整合 326
9.2 知識(shí)圖譜增強(qiáng)生成的通用框架 327
9.3 為知識(shí)圖譜創(chuàng)建索引 327
9.3.1 圖索引 328
9.3.2 文本索引 328
9.3.3 向量索引 329
9.3.4 混合索引 329
9.4 從知識(shí)圖譜中檢索知識(shí) 329
9.4.1 檢索方法 330
9.4.2 檢索過(guò)程 331
9.4.3 知識(shí)粒度 334
9.5 知識(shí)表示形式 335
9.5.1 鄰接表和邊表 335
9.5.2 自然語(yǔ)言文本 336
9.5.3 編程語(yǔ)言 336
9.5.4 語(yǔ)法樹 341
9.5.5 頂點(diǎn)序列 341
9.6 GraphRAG概述 341
9.7 GraphRAG實(shí)戰(zhàn) 344
9.7.1 安裝GraphRAG和數(shù)據(jù)資源準(zhǔn)備 344
9.7.2 轉(zhuǎn)換為實(shí)體的關(guān)系屬性的DataFrame 346
9.7.3 計(jì)算實(shí)體、關(guān)系的排序值 347
9.7.4 為實(shí)體生成描述文本及向量化 347
9.7.5 為關(guān)系生成描述文本及向量化 348
9.7.6 社區(qū)分類和社區(qū)描述文本 349
9.7.7 調(diào)用API生成GraphRAG可用數(shù)據(jù) 354
9.7.8 大模型的初始化 355
9.7.9 局部搜索與全局搜索 355
9.8 思考題 358
9.9 本章小結(jié) 358
第10章 知識(shí)增強(qiáng)大模型應(yīng)用 360
10.1 應(yīng)用框架 362
10.2 知識(shí)來(lái)源 363
10.2.1 非結(jié)構(gòu)化知識(shí) 363
10.2.2 結(jié)構(gòu)化數(shù)據(jù)庫(kù) 364
10.2.3 知識(shí)圖譜 365
10.3 知識(shí)運(yùn)營(yíng) 366
10.3.1 知識(shí)的質(zhì)量 366
10.3.2 數(shù)據(jù)管理流程 367
10.3.3 法律合規(guī)、隱私與知識(shí)產(chǎn)權(quán) 368
10.3.4 可觀測(cè)性工具 368
10.4 應(yīng)用指南 369
10.4.1 應(yīng)用價(jià)值 370
10.4.2 面向進(jìn)取者:全面推進(jìn)的策略 371
10.4.3 面向保守者:試點(diǎn)驅(qū)動(dòng)的策略 372
10.4.4 選型的“四三二一”原則 373
10.4.5 最佳實(shí)踐要點(diǎn) 374
10.5 行業(yè)應(yīng)用案例 375
10.5.1 文檔助手 375
10.5.2 教育領(lǐng)域應(yīng)用場(chǎng)景 377
10.5.3 智慧金融應(yīng)用場(chǎng)景 378
10.5.4 智慧醫(yī)療應(yīng)用場(chǎng)景 381
10.5.5 智能制造應(yīng)用場(chǎng)景 383
10.6 思考題 386
10.7 本章小結(jié) 386
附錄A 388
附錄B 389
參考文獻(xiàn) 390