本書是中國科協(xié)新一代信息技術系列叢書之一。
本書重點闡述大數(shù)據(jù)的基本原理、技術、平臺和不同領域的應用案例。全書共分14章,第1章為緒論;第2~7章為技術篇,介紹了數(shù)據(jù)采集與治理、數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)安全與隱私保護和大數(shù)據(jù)處理平臺;第8~12章為應用篇,介紹了大數(shù)據(jù)在不同領域的應用案例,包括社會網(wǎng)絡大數(shù)據(jù)、城市大數(shù)據(jù)、工業(yè)大數(shù)據(jù)、教育大數(shù)據(jù)和農(nóng)業(yè)大數(shù)據(jù);第13、14章為數(shù)據(jù)管理篇,包括數(shù)據(jù)開放與共享和大數(shù)據(jù)的法律政策規(guī)范。
本書主要面向大學非計算機類的工科專業(yè)的高年級學生與研究生,亦可作為大數(shù)據(jù)愛好者的科普讀物。
本書配有免費的電子課件,歡迎選用本書作教材的老師登錄www.cmpedu.com注冊下載。
前言
當前,新一代信息技術正在全球孕育興起,科技創(chuàng)新、產(chǎn)業(yè)形態(tài)和應用格局正發(fā)生著重大變革。
隨著數(shù)據(jù)獲取和計算技術的進步,大數(shù)據(jù)已成為一種新的國家戰(zhàn)略資源,引起了學術界、產(chǎn)業(yè)界、政府及行業(yè)用戶等的高度關注。世界主要發(fā)達國家已經(jīng)相繼制定了促進大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的政策法規(guī),積極構(gòu)建大數(shù)據(jù)生態(tài),實施大數(shù)據(jù)國家戰(zhàn)略。
我國充分認識到大數(shù)據(jù)時代帶來的重大機遇,部署落實了一系列與大數(shù)據(jù)密切相關的規(guī)劃。2015年,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展工作。目前,多個省市已經(jīng)出臺大數(shù)據(jù)相關政策,一些地方政府專門設置大數(shù)據(jù)管理部門,為大數(shù)據(jù)基礎設施、技術創(chuàng)新、產(chǎn)業(yè)發(fā)展營造了良好環(huán)境。黨的十九大報告在深化供給側(cè)結(jié)構(gòu)性改革中指出:“加快建設制造強國,加快發(fā)展先進制造業(yè),推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合,在中高端消費、創(chuàng)新引領、綠色低碳、共享經(jīng)濟、現(xiàn)代供應鏈、人力資本服務等領域培育新增長點、形成新動能!备用鞔_大數(shù)據(jù)應與各個行業(yè)深度融合。
為落實國家戰(zhàn)略,加速新一代信息技術人才培養(yǎng),滿足數(shù)字經(jīng)濟發(fā)展的人才需求,為實現(xiàn)經(jīng)濟高質(zhì)量發(fā)展提供人才支撐,中國科協(xié)策劃并組織編寫以云計算、大數(shù)據(jù)、人工智能等為代表的新一代信息技術系列叢書,成立了中國科協(xié)新一代信息技術系列叢書編寫委員會,聘請梅宏院士為編委會主任,
李培根院士、李德毅院士、李伯虎院士、張堯?qū)W院士、李駿院士、譚鐵牛院士、趙春江院士
為編委會委員,統(tǒng)籌叢書編寫工作。本書是該系列叢書之一。
本書主要面向大學非計算機類的工科專業(yè)的高年級學生與研究生,目的是幫助學生掌握大數(shù)據(jù)的基本原理和基本知識,熟悉大數(shù)據(jù)技術在多個行業(yè)應用中“能與不能”的邊界,培養(yǎng)學生在本專業(yè)應用大數(shù)據(jù)的能力。同時,對于計算機相關專業(yè)的學生,本書也可作為大數(shù)據(jù)專業(yè)課程的導論課教材。本書注重知識結(jié)構(gòu)的基礎性與完整性,確保技術內(nèi)容的通用性、普適性與先進性,遵循教育規(guī)律,加強能力培養(yǎng),同時,精選行業(yè)真實案例,開闊學生視野,啟發(fā)創(chuàng)新思維。本書期望為跨學科研究者提供學科方法論和技術概述,滿足新一代信息技術人才的要求。
本書可分為四部分;A篇(第1章)介紹大數(shù)據(jù)的發(fā)展歷程、內(nèi)涵和外延、價值與意義;技術篇(第2~7章)以數(shù)據(jù)采集與治理、數(shù)據(jù)管理、數(shù)據(jù)分析與可視化的典型大數(shù)據(jù)應用生命周期作為主線,對大數(shù)據(jù)關鍵技術進行講解,進而闡述數(shù)據(jù)安全與大數(shù)據(jù)平臺的關鍵技術
,努力呈現(xiàn)技術的邏輯性和嚴密的科學思維;應用篇(第8~12章)使學生熟悉大數(shù)據(jù)的典型應用領域,從社會網(wǎng)絡大數(shù)據(jù)、城市大數(shù)據(jù)、工業(yè)大數(shù)據(jù)、教育大數(shù)據(jù)和農(nóng)業(yè)大數(shù)據(jù)方面進行案例剖析,滿足多個學科的教學需求;數(shù)據(jù)管理篇(第13、14章)則讓學生了解數(shù)據(jù)開放與共享和法律政策規(guī)范等方面的現(xiàn)狀。本書的具體結(jié)構(gòu)如下圖所示:
本書采用模塊化教學思維進行編寫,授課教師和學生可以根據(jù)專業(yè)和現(xiàn)有知識結(jié)構(gòu),選取不同的教學方案。本書教學建議為32~48學時,基礎篇和技術篇建議16~20學時,應用篇
建議14~24學時,數(shù)據(jù)管理篇建議2~4個學時或由學生自學。根據(jù)不同專業(yè)的實際情況,教師可以根據(jù)學時安排選擇1~2個不同行業(yè)應用進行重點講解,滿足教學需求。
本書的編寫匯集了多位專家學者的智慧。本書主編張堯?qū)W院士、胡春明副教授帶領編寫組全體成員,從教學理論和學術研究等多角度系統(tǒng)地進行頂層設計和撰寫工作。本書第1章由胡春明編寫,第2章由王宏志編寫,第3章由王建民編寫,第4章和第8章由唐杰編寫,第5章由袁曉如編寫,第6章由朱躍生編寫,第7章由吳中海編寫,第9章由呂金虎編寫,第10章由王晨編寫,第11章由陳恩紅編寫,第12章由吳華瑞編寫,第13章由
劉闖、王德慶編寫,第14章由馬民虎編寫。全書由胡春明統(tǒng)稿。
本書邀請了李德毅院士、梅宏院士和百度公司王海峰博士
前言
基礎篇
第1章緒論
1.1概述
1.1.1數(shù)據(jù)
1.1.2數(shù)據(jù)中蘊含的價值
1.1.3獲取數(shù)據(jù)中蘊含的價值
1.2大數(shù)據(jù)的內(nèi)涵和外延
1.2.1大數(shù)據(jù)時代的驅(qū)動力
1.2.2大數(shù)據(jù)的概念和特征
1.2.3大數(shù)據(jù)帶來的思維模式改變
1.2.4大數(shù)據(jù)的作用和意義
1.3大數(shù)據(jù)的技術挑戰(zhàn)和科學意義
1.3.1數(shù)據(jù)處理的一般過程
1.3.2大數(shù)據(jù)計算面臨的挑戰(zhàn)
1.3.3大數(shù)據(jù)計算的特點
1.3.4大數(shù)據(jù)計算平臺
1.3.5大數(shù)據(jù)與云計算、人工智能的關系
1.4數(shù)據(jù)科學
1.4.1數(shù)據(jù)科學的提出
1.4.2數(shù)據(jù)科學的范疇
1.4.3數(shù)據(jù)科學對學科發(fā)展的影響
習題
參考文獻及擴展閱讀資料
技術篇
第2章數(shù)據(jù)采集與治理
2.1概述
2.2大數(shù)據(jù)的來源與多源數(shù)據(jù)的采集方式
2.2.1大數(shù)據(jù)的來源
2.2.2多源數(shù)據(jù)的采集
2.2.3數(shù)據(jù)離散化
2.3大數(shù)據(jù)治理
2.3.1大數(shù)據(jù)治理的框架
2.3.2數(shù)據(jù)集成和跨界應用的數(shù)據(jù)集成方法
2.3.3數(shù)據(jù)變換
2.3.4數(shù)據(jù)質(zhì)量的檢驗與提升
習題
參考文獻及擴展閱讀資料
第3章數(shù)據(jù)管理
3.1概述
3.2分布式文件系統(tǒng)
3.2.1Hadoop
3.2.2Ceph
3.2.3GlusterFS
3.2.4分布式文件系統(tǒng)對比
3.3關系數(shù)據(jù)庫
3.3.1關系數(shù)據(jù)模型
3.3.2結(jié)構(gòu)化查詢語言
3.3.3數(shù)據(jù)庫事務
3.3.4關系數(shù)據(jù)庫管理系統(tǒng)
3.3.5SQL on Hadoop系統(tǒng)
3.4NoSQL數(shù)據(jù)庫
3.4.1鍵值對數(shù)據(jù)庫
3.4.2文檔數(shù)據(jù)庫
3.4.3列族數(shù)據(jù)庫
3.4.4圖數(shù)據(jù)庫
3.4.5時序數(shù)據(jù)庫
3.5多模態(tài)數(shù)據(jù)管理
習題
參考文獻及擴展閱讀資料
第4章數(shù)據(jù)分析
4.1概述
4.2統(tǒng)計數(shù)據(jù)分析
4.2.1數(shù)據(jù)描述性分析
4.2.2回歸分析
4.3基于機器學習的數(shù)據(jù)分析
4.3.1非監(jiān)督學習方法
4.3.2監(jiān)督學習方法
4.4圖的數(shù)據(jù)分析
4.4.1圖的基本概念
4.4.2中心性和相似性分析
4.4.3社交網(wǎng)絡上的算法
4.5自然語言中的數(shù)據(jù)分析
4.5.1詞表示分析
4.5.2語言模型
4.5.3話題模型
習題
參考文獻及擴展閱讀資料
第5章數(shù)據(jù)可視化
5.1概述
5.2數(shù)據(jù)可視化主要技術
5.2.1高維數(shù)據(jù)可視化
5.2.2網(wǎng)絡數(shù)據(jù)可視化
5.2.3層次結(jié)構(gòu)數(shù)據(jù)可視化
5.2.4時空數(shù)據(jù)可視化
5.2.5文本數(shù)據(jù)可視化
5.3高可擴展可視化技術
5.3.1科學可視化中的高可擴展性
5.3.2支持數(shù)據(jù)高效的存儲和檢索的可視化
5.3.3支持可擴展可視化的交互手段
5.4大數(shù)據(jù)可視化與可視分析案例
5.4.1VAST Challenge 2017的可視分析案例
5.4.2車輛軌跡數(shù)據(jù)的可視分析案例
5.5可視化工具和軟件
5.5.1高維數(shù)據(jù)可視化工具
5.5.2文本可視化工具
5.5.3網(wǎng)絡可視化工具
5.5.4可視化編程工具
習題
參考文獻及擴展閱讀資料
第6章數(shù)據(jù)安全與隱私保護
6.1概述
6.1.1數(shù)據(jù)安全與傳統(tǒng)信息安全的共異點
6.1.2數(shù)據(jù)采集及傳輸中的安全與隱私
6.1.3數(shù)據(jù)存儲的安全與隱私
6.1.4數(shù)據(jù)分析挖掘及處理的安全與隱私
6.1.5數(shù)據(jù)交互、共享與服務的安全與隱私
6.2數(shù)據(jù)安全及隱私保護支撐技術
6.2.1密碼學基礎及關鍵技術
6.2.2公鑰基礎設施
6.2.3授權(quán)管理基礎設施
6.2.4PKI與PMI協(xié)同工作原理
6.2.5秘密分割與共享管理技術
6.3數(shù)據(jù)脫敏技術與實踐
6.3.1數(shù)據(jù)交互安全與脫敏技術
6.3.2靜態(tài)數(shù)據(jù)脫敏技術
6.3.3動態(tài)數(shù)據(jù)脫敏技術
6.3.4數(shù)據(jù)脫敏實例
6.4數(shù)據(jù)生命周期安全的防護及管理體系
6.4.1數(shù)據(jù)安全防護體系
6.4.2數(shù)據(jù)安全標準
6.4.3數(shù)據(jù)生命周期安全實施方案與數(shù)據(jù)安全管理
習題
參考文獻及擴展閱讀資料
第7章大數(shù)據(jù)處理平臺
7.1概述
7.2大數(shù)據(jù)處理平臺架構(gòu)
7.2.1技術架構(gòu)
7.2.2開源平臺
7.3批量大數(shù)據(jù)計算
7.3.1基本概念
7.3.2典型批量計算系統(tǒng)
7.3.3實例:微博用戶群體年度熱詞統(tǒng)計
7.4流式大數(shù)據(jù)計算
7.4.1基本概念
7.4.2典型流式計算系統(tǒng)
7.4.3實例:微博用戶群體實時熱門話題分析
7.5大規(guī)模圖數(shù)據(jù)計算
7.5.1基本概念
7.5.2典型圖計算系統(tǒng)
7.5.3實例:微博用戶影響力排名
7.6內(nèi)存大數(shù)據(jù)計算
7.6.1基本概念
7.6.2典型內(nèi)存計算系統(tǒng)
7.6.3Spark Streaming和GraphX
習題
參考文獻及擴展閱讀資料
應用篇
第8章社會網(wǎng)絡大數(shù)據(jù)
8.1概述
8.2社會網(wǎng)絡大數(shù)據(jù)面臨的挑戰(zhàn)
8.3社會網(wǎng)絡中的用戶影響力
8.3.1影響力檢測實驗
8.3.2影響力傳播模型
8.3.3影響力度量算法
8.3.4社會影響力應用
8.4在線社會媒體中信息傳播的建模與預測
8.4.1網(wǎng)絡信息傳播模型
8.4.2傳播網(wǎng)絡推斷
8.4.3影響力最大化
8.4.4信息傳播預測
習題
參考文獻及擴展閱讀資料
第9章城市大數(shù)據(jù)
9.1概述
9.1.1城市數(shù)據(jù)的分類
9.1.2城市數(shù)據(jù)的特點
9.2智慧城市
9.2.1智慧城市的概念
9.2.2智慧城市的發(fā)展現(xiàn)狀
9.2.3智慧城市的未來趨勢
9.3智慧城市的技術體系框架
9.3.1智慧城市的技術框架
9.3.2以數(shù)據(jù)為中心的智慧城市特點
9.3.3智慧城市中的典型應用與服務
9.4城市大數(shù)據(jù)應用案例
9.4.1交通大數(shù)據(jù)的來源與種類
9.4.2交通大數(shù)據(jù)的分析與處理
9.4.3交通大數(shù)據(jù)的應用成果
9.5城市大數(shù)據(jù)未來展望
習題
參考文獻及擴展閱讀資料
第10章工業(yè)大數(shù)據(jù)
10.1概述
10.1.1工業(yè)大數(shù)據(jù)的內(nèi)涵
10.1.2工業(yè)大數(shù)據(jù)的特點
10.2工業(yè)大數(shù)據(jù)典型應用場景
10.2.1現(xiàn)有業(yè)務優(yōu)化
10.2.2促進企業(yè)升級轉(zhuǎn)型
10.3工業(yè)大數(shù)據(jù)關鍵技術
10.4工業(yè)大數(shù)據(jù)分析技術
10.4.1工業(yè)大數(shù)據(jù)分析工作準備
10.4.2工業(yè)大數(shù)據(jù)分析工作實施
10.5工業(yè)大數(shù)據(jù)分析案例
10.5.1大唐集團工業(yè)大數(shù)據(jù)應用實踐
10.5.2中聯(lián)重科工業(yè)大數(shù)據(jù)應用實踐
習題
參考文獻及擴展閱讀資料
第11章教育大數(shù)據(jù)
11.1概述
11.2教育大數(shù)據(jù)的采集與應用場景
11.2.1信息化校園
11.2.2智能輔導系統(tǒng)和在線題庫
11.2.3大規(guī)模開放式網(wǎng)絡課程
11.3認知診斷分析
11.3.1認知診斷任務描述
11.3.2經(jīng)典認知診斷方法
11.3.3基于大數(shù)據(jù)的深度認知診斷
11.4知識跟蹤分析
11.4.1知識跟蹤任務描述
11.4.2經(jīng)典知識跟蹤方法
11.4.3聯(lián)合知識跟蹤
11.5習題資源分析與挖掘
11.5.1相似習題判定任務描述
11.5.2相似習題判定技術
11.5.3其他習題分析與挖掘應用
11.6MOOC平臺活躍度預測
11.6.1活躍度預測任務描述
11.6.2活躍度預測分析方法
11.7教育大數(shù)據(jù)應用案例
11.7.1基于大數(shù)據(jù)分析的學生“隱形補助”體系
11.7.2基于大數(shù)據(jù)技術的個性化學習
習題
參考文獻及擴展閱讀資料
第12章農(nóng)業(yè)大數(shù)據(jù)
12.1概述
12.1.1智慧農(nóng)業(yè)
12.1.2農(nóng)業(yè)大數(shù)據(jù)分類
12.1.3農(nóng)業(yè)大數(shù)據(jù)的特點與技術挑戰(zhàn)
12.2農(nóng)業(yè)大數(shù)據(jù)應用
12.2.1農(nóng)業(yè)大數(shù)據(jù)應用價值
12.2.2農(nóng)業(yè)大數(shù)據(jù)典型應用場景
12.3農(nóng)業(yè)大數(shù)據(jù)關鍵技術
12.3.1農(nóng)業(yè)大數(shù)據(jù)平臺架構(gòu)
12.3.2農(nóng)業(yè)大數(shù)據(jù)標準化與共享技術
12.3.3農(nóng)業(yè)大數(shù)據(jù)分析技術
12.4農(nóng)業(yè)大數(shù)據(jù)應用案例
12.4.1農(nóng)保姆全產(chǎn)業(yè)鏈智能服務大數(shù)據(jù)應用案例
12.4.2農(nóng)技推廣大數(shù)據(jù)應用案例
習題
參考文獻及擴展閱讀資料
數(shù)據(jù)管理篇
第13章數(shù)據(jù)開放與共享
13.1概述
13.1.1數(shù)據(jù)開放與共享的概念
13.1.2數(shù)據(jù)開放與共享的發(fā)展歷程
13.2數(shù)據(jù)開放與共享的原則與政策
13.2.1數(shù)據(jù)開放與共享原則
13.2.2國外數(shù)據(jù)開放與共享政策
13.2.3中國數(shù)據(jù)開放與共享政策
13.2.4數(shù)據(jù)開放與共享實施指南
13.3數(shù)據(jù)開放與共享分類
13.3.1政府數(shù)據(jù)開放與共享
13.3.2公共財政資助產(chǎn)生的科學數(shù)據(jù)開放與共享
13.3.3企業(yè)數(shù)據(jù)開放與共享
13.3.4個人數(shù)據(jù)開放與共享
13.4數(shù)據(jù)開放與共享平臺
13.4.1數(shù)據(jù)開放與共享綜合平臺
13.4.2數(shù)據(jù)開放與共享領域平臺
13.4.3數(shù)據(jù)開放與共享平臺的基本功能
13.4.4數(shù)據(jù)開放與共享平臺的產(chǎn)權(quán)保護
習題
參考文獻及擴展閱讀資料
第14章大數(shù)據(jù)的法律政策規(guī)范
14.1中國大數(shù)據(jù)政策法規(guī)指引
14.1.1中國大數(shù)據(jù)政策法規(guī)發(fā)展過程
14.1.2中國的數(shù)據(jù)保護監(jiān)管機構(gòu)
14.2數(shù)據(jù)主權(quán)與數(shù)據(jù)權(quán)利
14.2.1數(shù)據(jù)主權(quán)
14.2.2數(shù)據(jù)權(quán)利
14.2.3數(shù)據(jù)權(quán)利主體和其他利益相關主體
14.3個人數(shù)據(jù)立法保護
14.3.1國外個人數(shù)據(jù)保護制度
14.3.2中國個人數(shù)據(jù)保護制度
14.4數(shù)據(jù)跨境流動監(jiān)管法律機制
14.4.1國外數(shù)據(jù)跨境及數(shù)據(jù)本地化立法
14.4.2中國數(shù)據(jù)跨境流動法律制度
14.4.3數(shù)據(jù)跨境流動法律制度設計
14.5科技倫理
14.5.1科技倫理問題的影響和特征
14.5.2科技倫理研究
習題
參考文獻及擴展閱讀資料