AI時代的數據價值創(chuàng)造:從數據底座到大模型應用落地
定 價:79.8 元
當前圖書已被 3 所學校薦購過!
查看明細
- 作者:劉汪根 王志軍 陳果
- 出版時間:2025/5/1
- ISBN:9787115670168
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書旨在幫助數據行業(yè)的從業(yè)者在 AI 時代提升數據管理和數據技術認知水平,內容覆蓋數據價值創(chuàng)造的理論、技術和實踐。
本書共 8 章。第 1 章回顧企業(yè)數據的發(fā)展歷史,并講解現代企業(yè)數據組織。第 2 章從多維度解析數據價值的創(chuàng)造路徑,包括從構建數字化決策、加速業(yè)務創(chuàng)新和推動 AI 變革等視角介紹數據價值創(chuàng)造的方法和成果。第 3 章系統(tǒng)講解數據管理的方法與技術,包括數據資產管理、數據資產運營、數據平臺架構的規(guī)劃及實踐案例。第 4 章講解數據要素價值化的路徑探索,包括數據要素在多行業(yè)的應用、基礎體系、可信數據流通技術及數據資產入表。第 5 章講解數據底座的技術與實踐,包括數據底座的架構要求、分布式存儲技術、分布式計算技術等,以及多種架構介紹。第 6 章講解數據與 AI 的融合,包括推薦系統(tǒng)、基于 LLM 的數據治理分析、數據標注等。第 7 章介紹企業(yè) AI 應用的方法論與知識融合。第 8 章是數據領域技術趨勢與思考,包括數據技術的自主可控、開源技術的發(fā)展與挑戰(zhàn)、數據中臺的發(fā)展歷程與思考、數據編織技術的原理與展望。
本書適合對大數據技術、數據管理、數據價值、數據與 AI 融合及相關技術感興趣的讀者閱讀,尤其適合從事大數據相關工作或旨在推動企業(yè)數字化轉型的讀者閱讀。
1. 本書作者劉汪根、陳果,在大數據圈子和咨詢領域的口碑、流量不錯,有較高的影響力。
2. 本書在內容組織上有如下3大特色:
(1)系統(tǒng)性:完整的數據管理知識體系。
(2)理論與實踐相結合:既包括核心技術的介紹,又包括大型企業(yè)的成功案例。
(3)前沿性:不僅包含成熟的數據管理技術,還包括AI+數據管理的前沿技術與應用。
劉汪根,現任星環(huán)科技副總裁、聯合創(chuàng)始人,CCF大數據專家委員會和數據治理發(fā)展委員會執(zhí)行委員。幫助星環(huán)打造了一系列自主可控、技術領先的大數據基礎軟件產品,成為全球首個通過國際基準測試TPC-DS認證的公司。
王志軍,中國聯通軟件研究院副院長,首席安全官。致力于大數據、云計算、AI及企業(yè)信息化領域研究,是通信行業(yè)大數據平臺建設的開拓者,曾幫助運營商率先實現全網數據集約化、百PB級數據集中高效處理。
陳果,企業(yè)知識開源計劃創(chuàng)始人兼首席布道師,波士頓咨詢公司前董事總經理,IBM咨詢前全球執(zhí)行合伙人。在管理咨詢和IT咨詢行業(yè)擁有24年從業(yè)經驗,為消費品和零售、高科技、冶金和化工、汽車和機械、物流、銀行、保險等行業(yè)的100多家企業(yè)提供過咨詢服務。
第 1章 數字化與信息化
1.1 數據與信息1
1.2 數據處理的起源2
1.3 數字化的數據處理3
1.3.1 從機械化到數字化4
1.3.2 從數據處理到信息系統(tǒng)7
1.3.3 面向記錄事務的數據管理9
1.4 數據管理與分析12
1.5 商業(yè)智能與數據科學14
1.6 數據可視化16
1.7 現代企業(yè)數據組織19
1.7.1 數據工程師20
1.7.2 數據分析師21
1.7.3 數據科學家22
1.7.4 數據管理人員23
第 2章 數據價值的創(chuàng)造路徑
2.1 數據分析創(chuàng)造價值24
2.1.1 企業(yè)數據價值創(chuàng)造的階段化路徑24
2.1.2 國內數字化的行業(yè)觀察27
2.2 數據價值:數字化決策30
2.2.1 運營管理的數字化30
2.2.2 風險管理的數字化32
2.2.3 營銷獲客的數字化34
2.3 數據價值:業(yè)務創(chuàng)新37
2.3.1 線下業(yè)務轉線上37
2.3.2 監(jiān)管的數字化39
2.4 數據價值:推動AI變革42
2.4.1 ImageNet42
2.4.2 數字療法43
2.5 數據價值創(chuàng)造的組織保障44
2.5.1 數據管理團隊能力建設47
2.5.2 數據產品團隊能力建設48
2.5.3 數據底座團隊能力建設49
第3章 數據管理的方法與技術
3.1 數據資產管理51
3.1.1 數據模型管理52
3.1.2 數據標準管理55
3.1.3 數據質量管理57
3.1.4 主數據管理59
3.1.5 元數據管理61
3.1.6 數據安全管理63
3.1.7 數據資產管理平臺65
3.2 數據資產運營69
3.2.1 數據可視化69
3.2.2 商業(yè)智能71
3.2.3 數據洞察73
3.2.4 數據標簽74
3.2.5 數據指標76
3.2.6 數據資產盤點與編目77
3.2.7 數據資產運營平臺80
3.3 數據平臺架構82
3.3.1 數據倉庫82
3.3.2 數據湖86
3.3.3 數據集市89
3.3.4 數據中臺90
3.4 中國聯通的數據運營體系93
3.4.1 數據運營體系的建設由來93
3.4.2 數據運營的規(guī)范統(tǒng)一94
3.4.3 統(tǒng)一工具支撐“一體化運營”94
3.4.4 “一套數據管理體系”
保障數據供給95
第4章 數據要素價值化的路徑探索
4.1 數據要素:數據價值的產業(yè)化98
4.1.1 數據要素×醫(yī)療健康98
4.1.2 數據要素×金融服務101
4.1.3 數據要素×智慧農業(yè)103
4.1.4 數據要素×氣象服務104
4.2 數據要素的基礎體系106
4.2.1 數據基礎設施106
4.2.2 數據基礎制度108
4.3 可信數據流通技術110
4.3.1 數據空間110
4.3.2 其他技術路徑115
4.4 數據資產入表118
4.4.1 數據資產的確認118
4.4.2 數據資產的會計計量120
4.4.3 數據資源入表管理平臺121
第5章 數據底座的技術與實踐
5.1 數據底座的架構要求124
5.1.1 數據底座的能力要求124
5.1.2 數據底座的核心功能126
5.2 分布式存儲技術128
5.2.1 分布式文件存儲HDFS130
5.2.2 對象存儲Ceph131
5.2.3 寬表存儲HBase132
5.2.4 文檔搜索引擎Elasticsearch135
5.3 分布式計算技術137
5.3.1 MapReduce140
5.3.2 Spark142
5.3.3 Presto145
5.4 分布式資源管理技術147
5.5 分析型數據庫151
5.5.1 MPP數據庫152
5.5.2 分布式分析型數據庫155
5.5.3 分析型數據庫的評價158
5.6 數據聯邦162
5.7 湖倉一體架構165
5.7.1 Hudi166
5.7.2 Iceberg168
5.7.3 Delta Lake171
5.8 流批一體架構172
5.8.1 Lambda架構173
5.8.2 Kappa架構174
5.8.3 Flink176
5.9 存算分離架構177
5.9.1 基于云存儲的存算分離179
5.9.2 基于本地存儲的存算分離180
5.10 中國聯通集團的數據底座建設183
5.10.1 大數據技術架構183
5.10.2 數據平臺架構188
第6章 數據與AI的融合
6.1 推薦系統(tǒng)191
6.1.1 協(xié)同過濾192
6.1.2 內容過濾193
6.1.3 基于向量的近鄰召回的推薦系統(tǒng)193
6.1.4 基于點擊率預估模型的推薦系統(tǒng)194
6.2 基于LLM的數據治理與分析195
6.2.1 智能化數據治理195
6.2.2 基于LLM的數據分析199
6.3 數據標注200
6.4 向量數據庫202
6.4.1 特征與向量203
6.4.2 相似度的度量204
6.4.3 向量檢索的召回率與準確率205
6.4.4 向量檢索與索引技術206
6.5 知識圖譜211
6.5.1 知識的表示方法212
6.5.2 知識抽取與推理技術213
6.5.3 知識存儲與圖模型215
6.5.4 圖數據庫與圖計算技術216
6.6 AI數據安全的挑戰(zhàn)與防護技術217
6.6.1 對抗樣本攻擊與防御218
6.6.2 數據投毒攻擊與防御219
6.6.3 后門攻擊與防御220
6.6.4 預訓練大模型的數據風險221
第7章 企業(yè)AI應用的方法論與知識融合
7.1 通用模型、推理模型與智能體223
7.1.1 通用模型223
7.1.2 推理模型224
7.1.3 智能體224
7.1.4 典型案例:DeepSeek大模型226
7.2 企業(yè)AI應用落地方法論227
7.2.1 企業(yè)AI應用落地條件227
7.2.2 企業(yè)AI落地場景228
7.2.3 企業(yè)AI場景實踐案例229
7.3 大模型與企業(yè)知識融合229
7.3.1 大模型數據調優(yōu)難題:Demo與上線的差距229
7.3.2 LLM的知識機制230
7.3.3 企業(yè)AI應用的基礎設施只需要DeepSeek嗎231
7.4 知識工程中的大模型應用233
7.4.1 大模型參數差異與NER任務的影響233
7.4.2 知識增強對實體識別的優(yōu)化234
7.4.3 易混淆知識的識別策略236
7.4.4 知識長度與識別準確率的關系238
7.4.5 推理能力對大模型識別效果的影響240
7.4.6 大模型驅動的知識工程流水線242
第8章 數據領域技術趨勢與思考
8.1 數據技術的自主可控245
8.2 開源技術的發(fā)展與挑戰(zhàn)247
8.3 數據中臺的發(fā)展歷程與思考251
8.4 數據編織技術的原理與展望253