《數據資產管理核心技術與應用》深入探討數據資產管理的核心技術與應用,融入作者在大數據領域多年的豐富經驗。《數據資產管理核心技術與應用》為讀者提供一套可以落地的數據資產管理框架,并詳解兩個基于該框架進行數據資產管理的應用案例,使讀者能更好地了解數據資產管理底層所涉及的眾多核心技術,讓數據可以發(fā)揮出更大的價值!稊祿Y產管理核心技術與應用》配套PPT課件、示例源代碼、作者微信群答疑服務。全書共分10章,第1章主要讓讀者認識數據資產,了解數據資產相關的基礎概念,以及數據資產的發(fā)展情況。第2~8章主要介紹大數據時代數據資產管理所涉及的核心技術,內容包括元數據的采集與存儲、數據血緣、數據質量、數據監(jiān)控與告警、數據服務、數據權限與安全、數據資產管理架構等。第9~10章主要從實戰(zhàn)的角度介紹數據資產管理技術的應用實踐,包括如何對元數據進行管理以發(fā)揮出數據資產的更大潛力,以及如何對數據進行建模以挖掘出數據中更大的價值。
《數據資產管理核心技術與應用》適合數據資產管理者、數據資產管理初學者、數據應用開發(fā)工程師、數據分析師、數據庫管理員、架構師、產品經理、技術經理作為技術參考書,也適合高等院;蚋呗毟邔祿Y產管理相關課程的教學參考書。
《數據資產管理核心技術與應用》從核心技術和應用實踐兩個角度,講述如何管理好數據資產、如何解決數據資產管理中面臨的諸多技術痛點,幫助數據資產管理者、開發(fā)者架構好數據服務的技術基礎,從而幫助數據資產使用人員、數據分析師、經營決策人員等快速地找到自己想要的數據,讓數據可以發(fā)揮出更大的價值。
隨著互聯網技術的穩(wěn)步發(fā)展以及人工智能時代的到來,我們已經邁入了一個數據激增的時代。每時每刻都在產生大量的數據,數據的格式和種類也在不斷增加。與此同時,大數據技術和架構也在不斷變革。傳統(tǒng)的數據倉庫已經無法滿足海量數據的存儲和分析需求,于是出現了數據湖以及湖倉一體的新型大數據技術架構。由此可以看到,隨著大數據的發(fā)展,數據存儲和分析會變得越來越復雜,海量數據的管理也會變得越來越重要。同時,隨著人工智能技術越來越成熟,海量數據可以更好地服務于人工智能的模型訓練,讓人工智能變得更加準確。
本書從技術與應用兩個角度講述了如何管理數據資產、解決數據資產管理中面臨的諸多技術痛點,從而讓數據終端用戶或者數據分析師等能快速找到自己想要的數據,讓數據可以發(fā)揮出更大的價值。
關于本書
本書聚焦數據資產管理的核心技術與應用,作者分享了多年大數據工作中積累的相關技術與經驗,旨在為讀者提供一套可以落地的數據資產管理框架,基于該框架進行數據資產管理實踐,讓讀者能更好地學習和理解數據資產管理底層所涉及的眾多核心技術。
本書內容可以分為如下三個部分來理解:
(1)第1章,主要讓讀者認識數據資產,了解數據資產相關的基礎概念及其發(fā)展情況。
(2)第2~8章,主要介紹大數據時代數據資產管理包含的核心技術,內容包括元數據的采集與存儲、數據血緣、數據質量、數據監(jiān)控與告警、數據服務、數據權限與安全、數據資產管理架構等,全面介紹數據資產管理底層所涉及的核心技術。
(3)第9~10章,主要從實戰(zhàn)的角度介紹數據資產管理的應用實踐,包括如何對元數據進行管理以發(fā)揮出數據資產的更大潛力,以及如何對數據進行建模以挖掘出數據中更大的價值。
配套資源下載
本書配套PPT課件、示例源代碼、作者微信群答疑服務,需要讀者用自己的微信掃描下方的二維碼下載。如果在學習本書的過程中發(fā)現問題或有疑問,可發(fā)送郵件至booksaga@163.com,郵件主題寫上數據資產管理核心技術與應用。
本書作者
本書第1章由張永清和王函共同寫作,第2~3章由張永清寫作,第4章由蔣彪和張永清共同寫作,第5~8章由張永清寫作,第9~10章由趙偉寫作。
鳴謝
感謝清華大學出版社的編輯們對本書的出版所做出的貢獻。
感謝福特中國新能源技術、數字化及整車硬件研發(fā)執(zhí)行總監(jiān)陳兵為本書寫推薦序。
感謝白鯨開源聯合創(chuàng)始人、Apache基金會正式成員、Apache孵化器導師、Apache DolphinScheduler PMC Chair、Apache SeaTunnel PMC、ApacheCon亞洲大數據湖倉論壇出品人、中國開源先鋒、中國科協2023開源創(chuàng)新榜優(yōu)秀人物代立冬為本書寫推薦序。
感謝Databricks高級架構師吳舒對本書的技術指導。
感謝福特中國數字化高級經理周揚對本書的特別點評和支持。
感謝部門同事以及身邊的眾多朋友對本書的支持。
感謝江蘇省交通通信信息中心朱雷雷為本書寫推薦序。
由于作者水平和時間的限制,書中難免存在疏漏之處,還望見諒并幫忙指正,也懇請讀者提出更多寶貴的意見和建議。
張永清于南京
2024年5月
張永清,從事功能測試、自動化測試、性能測試、Java軟件開發(fā)、大數據開發(fā)、架構師等工作十多年,在自動化測試設計、性能測試設計、性能診斷、性能調優(yōu)、分布式架構設計等方面積累了多年經驗。參與過的系統(tǒng)涉及公安、互聯網、移動互聯網、大數據、人工智能等領域。先后任職于江蘇飛搏軟件、蘇寧大數據研發(fā)中心、蘇寧研究院、蘇寧人工智能研發(fā)中心、紫金普惠研發(fā)中心、福特汽車工程研究有限公司,歷任測試經理、技術經理、部門經理、高級架構師等職位。重點關注大數據、圖像處理、高性能分布式架構設計等領域。著有圖書《軟件性能測試、分析與調優(yōu)實踐之路(第2版)》《軟件性能測試、分析與調優(yōu)實踐之路》《Robot Framework自動化測試框架核心指南》。
第 1 章 認識數據資產 1
1.1 數據資產的基本介紹 1
1.2 數據資產的分類 4
1.3 數據資產的價值評估 5
1.4 數據資產的質量 6
1.5 數據資產的存儲 6
1.6 數據資產管理 9
1.7 數據資產管理的信息化建設 11
1.8 數據資產與人工智能 11
第 2 章 元數據的采集與存儲 13
2.1 Hive中的元數據采集 14
2.1.1 基于Hive Meta DB的元數據采集 14
2.1.2 基于Hive Catalog的元數據采集 18
2.1.3 基于Spark Catalog的元數據采集 21
2.2 Delta Lake中的元數據采集 29
2.2.1 基于Delta Lake自身設計來采集元數據 31
2.2.2 基于Spark Catalog來采集元數據 32
2.3 MySQL中的元數據采集 34
2.4 Apache Hudi中的元數據采集 41
2.4.1 基于Spark Catalog采集元數據 42
2.4.2 Hudi Timeline Meta Server 43
2.4.3 基于Hive Meta DB采集元數據 47
2.5 Apache Iceberg中的元數據采集 49
2.5.1 Iceberg的元數據設計 50
2.5.2 Iceberg元數據的采集 54
2.6 元數據的存儲模型設計 56
2.6.1 如何對元數據進行整合 56
2.6.2 元數據的存儲模型設計 57
第 3 章 數據血緣 59
3.1 獲取數據血緣的技術實現 59
3.1.1 如何從Hive中獲取數據血緣 60
3.1.2 從Spark執(zhí)行計劃中獲取數據血緣 66
3.1.3 從Spark SQL語句中獲取數據血緣 82
3.1.4 從Flink中獲取數據血緣 91
3.1.5 從數據任務的編排系統(tǒng)中獲取數據血緣 92
3.2 數據血緣的存儲模型與展示設計 94
第 4 章 數據質量的技術實現 98
4.1 質量數據采集的技術實現 100
4.1.1 定義數據采集的規(guī)則 100
4.1.2 定時Job的技術選型 103
4.2 如何處理采集到的質量數據 109
4.3 質量數據的存儲模型設計 110
4.4 常見的開源數據質量管理平臺 112
4.4.1 Apache Griffin 112
4.4.2 Qualitis 113
第 5 章 數據監(jiān)控與告警 116
5.1 數據監(jiān)控 116
5.1.1 數據監(jiān)控的種類 116
5.1.2 監(jiān)控數據的特點與存儲方式 117
5.2 常見的數據監(jiān)控目標 118
5.2.1 數據鏈路監(jiān)控 118
5.2.2 數據任務監(jiān)控 124
5.2.3 數據質量監(jiān)控 125
5.2.4 數據服務監(jiān)控 125
5.2.5 數據處理資源監(jiān)控 126
5.3 Prometheus簡介 128
5.4 Grafana簡介 135
5.5 使用Grafana和Prometheus來實現數據監(jiān)控與告警 138
5.5.1 數據鏈路的告警實現 138
5.5.2 數據任務的告警實現 141
5.5.3 數據質量的告警實現 142
5.5.4 數據服務的告警實現 142
5.5.5 數據處理資源的告警實現 143
第 6 章 數據服務 146
6.1 如何設計數據服務 146
6.1.1 數據源管理 148
6.1.2 數據服務的敏捷化和可配置化 148
6.1.3 數據服務文檔的自動生成 151
6.1.4 數據服務的統(tǒng)一認證與鑒權 151
6.1.5 數據服務的監(jiān)控與告警 153
6.2 數據服務的性能 155
6.3 數據服務的熔斷與降級 159
第 7 章 數據權限與安全 163
7.1 常見的權限設計模式 163
7.1.1 基于角色的訪問控制 164
7.1.2 基于屬性的訪問控制 165
7.1.3 基于對象的訪問控制 165
7.2 數據權限 166
7.2.1 列權限控制 167
7.2.2 行權限控制 170
7.3 數據脫敏 171
7.4 數據安全 174
第 8 章 數據資產架構 176
8.1 數據資產的架構設計 177
8.1.1 數據獲取層 177
8.1.2 數據處理層 178
8.1.3 數據存儲層 180
8.1.4 數據管理層 182
8.1.5 數據分析層 182
8.1.6 數據服務層 183
8.2 常見的開源數據資產管理平臺 185
8.2.1 Apache Atlas 185
8.2.2 Data Hub 186
8.2.3 OpenMetadata 189
第 9 章 元數據管理實踐 193
9.1 如何理解元數據 194
9.1.1 為何需要元數據 194
9.1.2 如何讓元數據產生更大價值 195
9.1.3 元數據分類及其好處 196
9.1.4 元數據管理 198
9.1.5 參與角色 201
9.2 元數據管理 202
9.2.1 元數據模型的組織關系 202
9.2.2 元數據的采集 204
9.2.3 業(yè)務域設計 205
9.2.4 業(yè)務術語設計 209
9.2.5 元數據標簽設計 212
9.2.6 數據Owner 214
9.2.7 數據生命周期 215
9.2.8 元數據注冊和發(fā)布 216
9.2.9 核心功能介紹 218
第 10 章 數據建模實踐 224
10.1 什么是數據建模 224
10.1.1 數據模型分類 224
10.1.2 數據建模方法 227
10.2 數據倉庫建模架構 229
10.3 關系型數據建模 231
10.3.1 概念模型階段 231
10.3.2 邏輯模型階段 235
10.3.3 物理模型階段 238
10.4 維度建模 240
10.4.1 基本概念 240
10.4.2 維度表設計 246
10.4.3 事實表分類 250
10.4.4 基于維度建模的數據分析實踐 251
參考文獻 253