本書介紹了數(shù)據工程的基本概念和理論基礎,圍繞數(shù)據資源建設的規(guī)劃和管理問題,介紹數(shù)據資源規(guī)劃和管理的概念、特征、作用和功能,系統(tǒng)介紹了數(shù)據資源規(guī)劃理論的發(fā)展過程、核心思想基礎、主流方法體系和具體實施步驟,以及數(shù)據資源管理涉及的治理、質量、集成等理論知識、支撐平臺、關鍵技術和主流工具。本書內容劃分為數(shù)據工程基礎篇、數(shù)據資源規(guī)劃篇、數(shù)據資源管理篇三個部分,其中數(shù)據工程基礎篇涵蓋數(shù)據工程概述、數(shù)據標準、數(shù)據模型等內容,數(shù)據資源規(guī)劃篇涵蓋數(shù)據資源規(guī)劃理論、規(guī)劃方法、需求分析、模型構建、實踐與工具等內容,數(shù)據資源管理篇涵蓋數(shù)據治理、數(shù)據質量管理、數(shù)據集成、數(shù)據中臺等內容。
本書既可以作為高等院校信息管理與信息系統(tǒng)、信息資源管理、大數(shù)據工程以及計算機信息管理等專業(yè)本科生的教材,還可以作為企事業(yè)單位信息管理工作人員和設計開發(fā)人員的培訓教材。
信息化是世界經濟和社會發(fā)展的必然趨勢。近年來,在黨中央、國務院的高度重視和正確領導下,我國信息化建設取得積極進展,信息技術對提升工業(yè)技術水平、創(chuàng)新產業(yè)形態(tài)、推進經濟社會發(fā)展發(fā)揮了重要作用。信息技術已成為經濟增長的倍增器、發(fā)展方式的轉換器、產業(yè)升級的助推器。
從2000年開始,我們就從事數(shù)據工程的技術理論和工程實踐方面的研究,并完成了多項大型數(shù)據工程的規(guī)劃、設計與實施工作,積累了一些寶貴的經驗。這期間,深刻感到在數(shù)據資源規(guī)劃和管理等諸多環(huán)節(jié)缺乏理論指導,設計建設的成果依賴個人經驗的情況比較普遍,不同時期和不同團隊規(guī)劃設計的數(shù)據資源體系難以繼承共享,整體的建設水平還在底水平徘徊,嚴重制約信息化建設的整體質量效益。如何有效解決上述難題,真正促進數(shù)據工程領域數(shù)據資源建設走上規(guī)范化建設的道路,發(fā)揮和釋放信息化建設的動能,成為我們每個數(shù)據工程建設人必須思考和解決的重要課題。同時課題組這些年通過工作實踐積累了一些有益的經驗,希望把我們的一些經驗共享出來,為此促使我們有了出一本《數(shù)據資源規(guī)劃與管理實踐》相關教材的愿望!稊(shù)據資源規(guī)劃與管理實踐》主要涉及了三個方面的主題:一是數(shù)據工程基礎,從整體和共性的角度,介紹數(shù)據工程的基礎概念、體系建設,重點介紹數(shù)據標準和數(shù)據模型等數(shù)據工程共性技術,支撐數(shù)據資源規(guī)劃和管理實踐;二是數(shù)據資源規(guī)劃,數(shù)據資源規(guī)劃是數(shù)據工程建設的個步驟,數(shù)據資源規(guī)劃的質量好壞直接影響后續(xù)數(shù)據工程建設的質量,通過科學的數(shù)據資源規(guī)劃需求分析、數(shù)據資源規(guī)劃實踐和模型構建,確保數(shù)據資源規(guī)劃能夠滿足高質量數(shù)據持續(xù)建設和高效共享的需要;三是數(shù)據資源管理,數(shù)據資源管理的概念非常寬泛,本書側重解決數(shù)據資源管理中的治理問題,主要解決在異構和低質量的數(shù)據環(huán)境下,如何通過數(shù)據質量管理、數(shù)據集成等方法手段,利用數(shù)據中臺的體系化解決方案,提升數(shù)據資源的整體質量,挽救歷史遺留的數(shù)據資產,提升遺留數(shù)據的價值。同時,這期間圍繞數(shù)據工程領域一些新的理論方法不斷被提出,從而為《數(shù)據資源規(guī)劃與管理實踐》能以較完整的理論體系呈現(xiàn)給大家提供了重要支撐。
《數(shù)據資源規(guī)劃與管理實踐》是一本全面介紹數(shù)據資源規(guī)劃與管理的概念、原理與技術方法的綜合性教材。讀者在閱讀本書后,能夠較全面地了解數(shù)據資源建設的基本方法和軟件工具,可以指導數(shù)據工程領域大型項目的建設和實踐,也可以促進大家重視數(shù)據資源規(guī)劃和管理工作。
本書由陳剛擔任主編,負責全面籌劃、設計、統(tǒng)稿。郝建東、張中輝、郝文寧等擔任副主編,參與本書的具體編寫工作和設計工作。本書內容共分12章,各章的簡要內容如下。
第1章是數(shù)據工程概述。圍繞數(shù)據工程的基本概念漸次展開,首先介紹通用的數(shù)據工程概念,包括數(shù)據的定義和生命周期,數(shù)據工程的定義和內涵;接著討論數(shù)據工程體系建設的架構和建設內容;后重點介紹我國數(shù)據工程建設的現(xiàn)狀與發(fā)展以及美軍數(shù)據工程建設的發(fā)展歷程。
第2章主要介紹數(shù)據的標準化。首先介紹標準和標準化的概念,以及數(shù)據標準化和數(shù)據標準體系等內容;然后分別介紹元數(shù)據標準和數(shù)據元標準化的相關內容,從概念、組成、描述方法等方面進行詳細的描述;后介紹數(shù)據分類與編碼的相關知識。
第3章主要介紹數(shù)據模型。首先介紹數(shù)據模型的基本概念和三個層次數(shù)據模型的特點;然后介紹四種數(shù)據建模的標記符號,并對這四種建模的標記符號的應用場景進行比較分析。
第4章主要介紹數(shù)據資源規(guī)劃理論。首先介紹數(shù)據資源規(guī)劃的由來和產生的背景;然后介紹數(shù)據資源規(guī)劃的概念、核心思想和主要作用;接著介紹數(shù)據資源規(guī)劃的理論基礎,包括信息生命周期管理理論、信息工程和戰(zhàn)略數(shù)據資源規(guī)劃理論,以及信息資源管理和數(shù)據資源管理標準化理論。
第5章主要介紹數(shù)據資源規(guī)劃方法。首先介紹數(shù)據資源規(guī)劃方法的基本情況,對國外和國內的方法進行對比介紹;然后重點介紹基于穩(wěn)定信息過程、基于穩(wěn)定信息結構、基于指標能力三種數(shù)據資源規(guī)劃方法;后對三種方法的特點和應用場景進行分析比較。
第6章主要介紹數(shù)據資源規(guī)劃的需求分析方法。首先介紹需求分析的基本概念,以及與軟件工程的需求分析思路的差異;然后介紹需求獲取的四種主要方法,包括訪談、快速原型系統(tǒng)法、簡易的應用規(guī)格說明技術和數(shù)據流圖法;接著介紹需求分析工具數(shù)據流圖,以及數(shù)據字典的制定和設計方法,通過案例指導大家利用數(shù)據流圖描述需求;后介紹用戶視圖分析技術。
第7章主要介紹數(shù)據資源規(guī)劃的模型構建。首先介紹數(shù)據模型構建的類型,然后分別介紹關系模型、維度模型、基于本體的數(shù)據模型構建技術。
第8章主要介紹數(shù)據資源規(guī)劃實踐和工具。首先圍繞演訓數(shù)據資源建設需求,采用基于穩(wěn)定信息過程的數(shù)據資源規(guī)劃方法,設計了數(shù)據資源規(guī)劃的實踐案例;然后分別介紹早期數(shù)據資源規(guī)劃工具IRP 2000和作者所在本單位開發(fā)的數(shù)據資源規(guī)劃工具。
第9章主要介紹數(shù)據治理的相關理論方法。首先介紹數(shù)據治理的基本概念、數(shù)據治理的要素;然后詳細介紹數(shù)據治理的實施方法和流程,包括14個基本步驟;后介紹大數(shù)據治理相關知識,包括大數(shù)據治理的基本概念和相關的技術框架。
第10章主要介紹數(shù)據質量管理的相關技術。首先介紹數(shù)據質量的基本概念和數(shù)據質量的問題,以及數(shù)據質量衡量的維度;接著介紹數(shù)據質量中的處理技術數(shù)據清洗,包括數(shù)據清洗的定義、方法和流程,并重點介紹缺失數(shù)據處理技術;后介紹六款主流的數(shù)據質量工具,幫助大家了解各種數(shù)據質量工具的特點和主要功能,并有針對性地解決數(shù)據質量問題。
第11章主要介紹數(shù)據集成的相關技術。首先介紹數(shù)據集成的概念,接著介紹數(shù)據集成的主要方法,包括虛擬視圖法、物化方法、混合型集成方法,然后介紹數(shù)據集成開發(fā)生命周期和相關數(shù)據集成技術;后介紹三款數(shù)據集成產品,包括Kettle工具、DataX工具、PowerCenter工具。
第12章主要介紹數(shù)據中臺架構和技術。首先介紹數(shù)據中臺的概念發(fā)展和主要功能;接著介紹數(shù)據中臺的架構,以及數(shù)據中臺架構的核心內容;然后介紹數(shù)據中臺建設基本步驟,以及數(shù)據中臺的支撐技術;后介紹兩款數(shù)據中臺產品:阿里云上數(shù)據中臺和網易數(shù)據中臺。
由于作者水平有限,加之信息技術發(fā)展日新月異,特別是一些的數(shù)據資源規(guī)劃與管理技術理念沒有完全整合到本書中,同時書中難免有錯誤與不妥之處,敬請讀者批評指正。
有關反饋信息或索取相關配套教學資源,可與本書責任編輯聯(lián)系,郵箱:764070006@qq.com。
編 者
2021年7月于南京
第1篇 數(shù)據工程基礎
第1章 數(shù)據工程概述 3
1.1 數(shù)據工程相關概念 3
1.1.1 數(shù)據的定義和生命周期 3
1.1.2 數(shù)據、信息、知識和智慧 4
1.1.3 數(shù)據工程的定義和內涵 5
1.2 數(shù)據工程的體系建設 6
1.2.1 總體架構 6
1.2.2 數(shù)據工程的體系維 7
1.2.3 數(shù)據工程的標準維 9
1.2.4 數(shù)據工程的技術維 10
1.3 數(shù)據工程建設現(xiàn)狀與發(fā)展 11
1.3.1 我國數(shù)據工程建設的現(xiàn)狀與發(fā)展 11
1.3.2 美軍數(shù)據工程建設的發(fā)展歷程 14
1.4 小結 18
習題 18
第2章 數(shù)據標準 19
2.1 概述 19
2.1.1 標準和標準化的基本概念 19
2.1.2 數(shù)據標準化概述 21
2.1.3 數(shù)據標準體系 22
2.2 元數(shù)據標準化 24
2.2.1 元數(shù)據基本概念 24
2.2.2 典型元數(shù)據標準 27
2.2.3 元數(shù)據標準的分類與管理 30
2.2.4 元數(shù)據標準參考框架 32
2.3 數(shù)據元標準化 35
2.3.1 數(shù)據元概述 35
2.3.2 數(shù)據元的基本屬性 39
2.3.3 數(shù)據元的命名和定義 41
2.3.4 數(shù)據元的表示格式和值域 43
2.3.5 數(shù)據元間的關系 46
2.4 數(shù)據分類與編碼 47
2.4.1 數(shù)據分類的基本原則和方法 47
2.4.2 數(shù)據編碼的基本原則和方法 49
2.5 小結 53
習題 54
第3章 數(shù)據模型 55
3.1 數(shù)據模型基本概念 55
3.1.1 概念模型 55
3.1.2 邏輯模型 56
3.1.3 物理模型 58
3.2 數(shù)據建模標記符號 59
3.2.1 實體?聯(lián)系圖標記符號 59
3.2.2 IDEF1x標記符號 60
3.2.3 信息工程標記符號 63
3.2.4 UML數(shù)據模型標記符號 65
3.2.5 標記符號的補充說明 66
3.3 數(shù)據模型描述方法 67
3.3.1 概念模型描述方法 67
3.3.2 邏輯模型描述方法 68
3.3.3 物理模型描述方法 70
3.3.4 數(shù)據字典描述方法 70
3.4 小結 71
習題 71
第2篇 數(shù)據資源規(guī)劃
第4章 數(shù)據資源規(guī)劃理論 75
4.1 數(shù)據資源規(guī)劃的由來 75
4.1.1 失敗的案例 75
4.1.2 應用積壓嚴重 76
4.1.3 應用開發(fā)效率低 76
4.1.4 系統(tǒng)維護的困難 76
4.2 數(shù)據資源規(guī)劃的概念和作用 77
4.2.1 數(shù)據資源規(guī)劃概念的提出 77
4.2.2 數(shù)據資源規(guī)劃的定義 78
4.2.3 數(shù)據資源規(guī)劃的核心思想 79
4.2.4 數(shù)據資源規(guī)劃的作用 79
4.3 數(shù)據資源規(guī)劃的理論基礎 79
4.3.1 信息生命周期管理理論 80
4.3.2 信息工程和戰(zhàn)略數(shù)據資源規(guī)劃理論 81
4.3.3 信息資源管理和數(shù)據資源管理標準化理論 84
4.4 小結 86
習題 86
第5章 數(shù)據資源規(guī)劃方法 87
5.1 基于穩(wěn)定信息過程的數(shù)據資源規(guī)劃方法 87
5.1.1 方法概述 87
5.1.2 具體步驟 88
5.2 基于穩(wěn)定信息結構的數(shù)據資源規(guī)劃方法 92
5.2.1 方法概述 92
5.2.2 具體步驟 92
5.3 基于指標能力的數(shù)據資源規(guī)劃方法 94
5.3.1 方法概述 94
5.3.2 具體步驟 95
5.4 數(shù)據資源規(guī)劃方法比較 96
5.5 小結 96
習題 97
第6章 數(shù)據資源規(guī)劃的需求分析 98
6.1 需求分析基本概念 98
6.2 需求獲取方法 99
6.2.1 訪談 99
6.2.2 快速原型系統(tǒng)法 99
6.2.3 簡易的應用規(guī)格說明技術 100
6.2.4 數(shù)據流圖法 101
6.3 需求分析工具數(shù)據流圖 102
6.3.1 數(shù)據流圖的符號 102
6.3.2 數(shù)據流圖設計步驟 103
6.3.3 數(shù)據字典 106
6.4 用戶視圖分析技術 108
6.4.1 用戶視圖概念 108
6.4.2 數(shù)據結構規(guī)范化 110
6.4.3 用戶視圖整理模式 114
6.5 小結 116
習題 116
第7章 數(shù)據資源規(guī)劃的模型構建 118
7.1 數(shù)據模型構建的類型 118
7.1.1 層次模型和網狀模型 118
7.1.2 關系模型 118
7.1.3 多維數(shù)據模型 119
7.1.4 DataVault數(shù)據模型 119
7.1.5 Anchor模型 119
7.1.6 基于本體的數(shù)據模型 119
7.2 關系模型構建技術 120
7.2.1 關系模型的基本概念 120
7.2.2 關系模型的構建步驟 121
7.3 維度模型構建技術 123
7.3.1 維度模型的基本概念 123
7.3.2 維度模型構建的基本步驟 123
7.4 基于本體的數(shù)據模型構建技術 125
7.4.1 本體的基本概念 125
7.4.2 本體的構建原則與步驟 126
7.4.3 基于本體的數(shù)據模型構建 127
7.5 小結 128
習題 128
第8章 數(shù)據資源規(guī)劃實踐和工具 129
8.1 數(shù)據資源規(guī)劃實踐案例 129
8.1.1 確定職能域 129
8.1.2 職能域業(yè)務分析,并確定其業(yè)務活動 129
8.1.3 職能域數(shù)據分析 132
8.1.4 建立領域的數(shù)據資源管理基礎標準 134
8.2 數(shù)據資源規(guī)劃工具IRP 2000 139
8.3 新版數(shù)據資源規(guī)劃工具 143
8.4 小結 146
習題 146
第3篇 數(shù)據資源管理
第9章 數(shù)據治理 149
9.1 數(shù)據治理概述 149
9.1.1 數(shù)據治理的基本概念 149
9.1.2 相關概念辨析 150
9.1.3 數(shù)據治理要素 152
9.2 數(shù)據治理實施方法 153
9.2.1 定義業(yè)務問題 153
9.2.2 獲取高層支持 154
9.2.3 評估成熟度 154
9.2.4 創(chuàng)建路線圖 154
9.2.5 建立組織藍圖 154
9.2.6 創(chuàng)建數(shù)據字典 154
9.2.7 理解數(shù)據 154
9.2.8 創(chuàng)建元數(shù)據倉庫 155
9.2.9 定義度量標準 155
9.2.10 主數(shù)據治理 155
9.2.11 治理分析 155
9.2.12 安全與隱私管理 155
9.2.13 信息生命周期管理 156
9.2.14 測量結果 156
9.3 大數(shù)據治理概述 156
9.3.1 大數(shù)據治理的基本概念 156
9.3.2 大數(shù)據治理的技術框架 159
9.4 小結 168
習題 168
第10章 數(shù)據質量管理 169
10.1 數(shù)據質量概述 169
10.1.1 數(shù)據質量定義 169
10.1.2 數(shù)據質量問題來源 169
10.1.3 數(shù)據質量問題分類 170
10.1.4 數(shù)據質量衡量維度 171
10.2 數(shù)據清洗 171
10.2.1 數(shù)據清洗定義 172
10.2.2 數(shù)據清洗方法 172
10.2.3 缺失數(shù)據處理 172
10.2.4 重復數(shù)據處理 176
10.2.5 異常數(shù)據處理 181
10.2.6 邏輯錯誤數(shù)據處理 182
10.2.7 數(shù)據清洗流程 183
10.3 數(shù)據質量工具 185
10.3.1 SAS/DataFlux 公司產品 185
10.3.2 Informatica公司產品 185
10.3.3 IBM公司產品 186
10.3.4 Oracle公司產品 186
10.3.5 Talend公司產品 187
10.3.6 Data Cleaner 187
10.4 小結 188
習題 188
第11章 數(shù)據集成 189
11.1 數(shù)據集成概述 189
11.1.1 數(shù)據集成的概念 189
11.1.2 數(shù)據集成的挑戰(zhàn) 190
11.2 數(shù)據集成主要方法 191
11.2.1 虛擬視圖方法 191
11.2.2 物化方法 192
11.2.3 混合型集成方法 194
11.3 數(shù)據集成開發(fā)生命周期 194
11.4 數(shù)據集成技術 195
11.4.1 ETL技術 195
11.4.2 實時數(shù)據集成技術 197
11.4.3 數(shù)據虛擬化技術 198
11.5 數(shù)據集成產品介紹 199
11.5.1 Kettle工具 199
11.5.2 DataX工具 200
11.5.3 Informatica PowerCenter工具 201
11.6 小結 204
習題 204
第12章 數(shù)據中臺 205
12.1 數(shù)據中臺概述 205
12.1.1 數(shù)據中臺的概念 206
12.1.2 數(shù)據中臺的發(fā)展 206
12.1.3 數(shù)據中臺的功能 207
12.2 數(shù)據中臺的架構 207
12.2.1 數(shù)據采集與集成 208
12.2.2 數(shù)據加工 209
12.2.3 數(shù)據資產體系構建 209
12.2.4 數(shù)據資產管理 210
12.2.5 數(shù)據服務 211
12.3 數(shù)據中臺的建設 212
12.3.1 需求調研 212
12.3.2 需求分析 212
12.3.3 數(shù)據中臺架構設計 212
12.3.4 實施數(shù)據中臺建設 214
12.3.5 運行維護數(shù)據中臺 214
12.4 數(shù)據中臺的支撐技術 214
12.4.1 數(shù)據采集技術 214
12.4.2 數(shù)據存儲技術 215
12.4.3 數(shù)據挖掘技術 216
12.4.4 大數(shù)據計算技術 217
12.4.5 數(shù)據服務技術 217
12.5 典型數(shù)據中臺的介紹 218
12.5.1 阿里云上數(shù)據中臺 218
12.5.2 網易數(shù)據中臺 219
12.6 小結 220
習題 220
參考文獻 221