《創(chuàng)新思維與TRIZ創(chuàng)新方法》編輯委員會〖HT〗〖ST〗〖WT〗〖HJ1〗[JZ(Z][HT4H]主〓審[HTK]: 陳敏玲[HT4H]主〓編[HTK]: 周〓蘇[HT4H]副主編[HTK]: 李亮亮〓褚〓赟〓韓志科〓王〓文〖HT〗[JZ)]〖HJ〗大數據(Big Data)的力量,正在積極地影響著我們社會的方方面面。它沖擊著許多主要的行業(yè),包括零售業(yè)、電子商務和金融服務業(yè)等,也正在徹底地改變我們的學習和日常生活: 改變我們的教育方式、生活方式、工作方式。如今,通過簡單、易用的移動應用和基于云端的數據服務,我們能夠追蹤自己的行為以及飲食習慣,還能提升個人的健康狀況。因此,我們有必要真正理解大數據這個極其重要的議題。
中國是大數據最大的潛在市場之一。據估計,中國有近六億網民,這就意味著中國的企業(yè)擁有絕佳的機會來更好地了解其客戶并提供更加個性化的體驗,同時為企業(yè)增加收入并提高利潤。阿里巴巴就是一個很好的例子。阿里巴巴不但在商業(yè)模式上具有顛覆性,而且掌握了與購買行為、產品需求和庫存供應相關的海量數據。除了阿里巴巴高層的領導能力之外,大數據是其成功的一個關鍵因素。
然而,僅有數據是不夠的。對于身處大數據時代的企業(yè)而言,成功的關鍵還在于找出大數據所隱含的真知灼見!耙郧埃藗兛傉f信息就是力量,如今,對數據進行分析、利用和挖掘才是力量之所在!
在不同行業(yè)中,那些專門從事行業(yè)數據的收集、整理,進行深度分析,并依據分析結果做出行業(yè)研究、評估和預測的工作被稱為數據分析。所謂大數據分析,是指用適當的方法對收集來的大量數據進行分析,提取有用信息和形成結論,從而對數據加以詳細研究和概括總結的過程;蛘撸櫭剂x,大數據分析是指對規(guī)模巨大的數據進行分析,是大數據到信息,再到知識的關鍵步驟。大數據分析結合了傳統(tǒng)統(tǒng)計分析方法和計算分析方法,在研究大量數據的過程中尋找模式、相關性和其他有用信息,幫助企業(yè)更好地適應變化并做出更明智的決策。
對于大數據技術及其相關專業(yè)的大學生來說,大數據分析的理念、技術與應用是一門理論性和實踐性都很強的核心課程。在長期的教學實踐中,我們體會到,堅持“因材施教”的重要原則,把實踐環(huán)節(jié)與理論教學相融合,抓實踐教學促進理論知識的學習,是有效地改善教學效果和提高教學水平的重要方法之一。本書的主要特色是: 理論聯(lián)系實際,結合一系列了解和熟悉大數據分析理念、技術與應用的學習和實踐活動,把大數據分析的概念、知識和技術融入實踐,使學生保持濃厚的學習熱情,加深對大數據分析的興趣,認識、理解和掌握核心知識。
本書是為高等院校相關專業(yè)開設“大數據分析”課程而設計編寫,具有豐富實踐特色的主教材,也可供有一定實踐經驗的IT應用人員、管理人員參考,或作為繼續(xù)教育的教材。
本書系統(tǒng)、全面地介紹了大數據分析的基本知識和應用技能,詳細介紹了大數據基礎、大數據分析基礎、大數據分析生命周期、大數據分析基本原則、構建分析路線、大數據分析的運用、大數據分析的用例、預測分析方法、預測分析技術、用戶角色與分析工具、大數據分析平臺、社交網絡與推薦系統(tǒng)、組織分析團隊等內容。附錄中提供了課程作業(yè)參考答案,還為大數據分析的學習設計了一個課程實踐項目。全書具有較強的系統(tǒng)性、可讀性和實用性。
結合課堂教學方法改革的要求,全書各章有針對性地安排了課前導讀案例,要求和指導學生在課前閱讀案例和課后完成作業(yè),深入理解課程知識內涵。
雖然已經進入電子時代,但我們仍然竭力倡導讀書。為每章設計的作業(yè)(四選一標準選擇題)其實并不難,學生只要認真閱讀教材,都能準確回答所有題目。
本課程的教學進度設計參考詳見“課程教學進度表”,該表可供教師授課和學生學習使用。實際執(zhí)行時,應按照教學大綱和校歷中關于本學期節(jié)假日的安排確定本課程的實際教學進度,并做適當剪裁。
本書的編寫得到2019年度國家級一流本科專業(yè)建設點(教高廳函〔2019〕46號)、浙江省本科高校“十三五”特色專業(yè)建設項目(浙教高教〔2017〕29號)、杭州市屬高校新型專業(yè)建設計劃項目(杭教高教〔2019〕5號)等的支持。
本書的編寫得到浙大城市學院、浙江安防職業(yè)技術學院、浙江商業(yè)職業(yè)技術學院等多所院校師生的支持。金蒼宏、陳禮管、王文、蔡錦錦、倪寧、喬鳳鳳等參與了本書的教材設計、教學規(guī)劃、案例設計等編寫工作。與本書配套的教學PPT課件等豐富教學資源可從清華大學出版社網站下載,歡迎教師與作者交流并索取本書教學配套的相關資料。
周蘇2020年春
1982年計算機應用專業(yè)本科畢業(yè),1986年由水電部研究所調入杭州大學計算機系任教,1991年破格晉升副教授,1999年調入浙江大學城市學院計算機系任教,2005年晉升教授。在杭州大學、浙江大學、浙江大學城市學院、浙江工業(yè)大學之江學院、溫州大學城市學院、嘉興學院南湖學院、溫州職業(yè)技術學院等多所院校專/兼職任教,教學經驗豐富。
長期從事計算機等專業(yè)教學工作,擔任計算機基礎、計算機導論、軟件工程、軟件測試技術、軟件體系結構、電子商務、移動商務、多媒體技術、數字媒體技術、項目管理、管理信息系統(tǒng)、應用統(tǒng)計學、C語言程序設計、面向對象程序設計、網絡傳播技術、網絡生態(tài)學、人機交互技術、藝術設計概論、藝術欣賞概論、計算機平面設計、信息管理與信息系統(tǒng)概論、信息資源管理、辦公軟件高級應用、信息安全技術、網絡管理技術、科技應用文寫作、創(chuàng)新思維與創(chuàng)新方法、大數據與數據挖掘等課程的教學,對計算機學科教學以及應用型院校教學有深刻理解。
1988年在天津科學技術出版社出版第一本教材《FoxBASE+及其程序設計技巧》并獲1991年全國優(yōu)秀科技暢銷書。1992年所著教材《軟件工程及其應用》(天津科技出版社) 獲北方十省市科技圖書二等獎。
第1章大數據基礎1
1.1什么是大數據4
1.1.1天文學——信息爆炸的起源5
1.1.2信息爆炸的社會5
1.1.3大數據的發(fā)展7
1.1.4大數據作為BI的進化形式8
1.2大數據的定義9
1.2.1定義大數據9
1.2.2大數據的3V特征10
1.2.3廣義的大數據12
1.3大數據的結構類型12
1.4大數據應用改變生活13
1.4.1在線娛樂14
1.4.2在線廣告14
1.4.3銷售和營銷14
1.4.4數據可視化15
1.4.5運營智能15
1.5大數據準備度自我評分表16
作業(yè)19第2章大數據分析基礎22
2.1大數據的影響25
2.2數據具有內在預測性27
2.3大數據分析的定義27
2.44種數據分析方法28
2.4.1描述性分析29
2.4.2診斷性分析30
2.4.3預測性分析30
2.4.4規(guī)范性分析32
2.4.5關鍵績效指標33
2.5定性分析與定量分析33
2.6大數據分析的行業(yè)作用33
2.6.1大數據分析的作用33
2.6.2大數據分析的關鍵應用35
2.6.3大數據分析的能力分析36
2.6.4大數據分析面臨的問題36
作業(yè)38第3章大數據分析生命周期40
3.1大數據分析生命周期概述43
3.2商業(yè)案例評估44
3.3數據標識44
3.4數據獲取與過濾44
3.5數據提取45
3.6數據驗證與清理46
3.7數據聚合與表示47
3.8數據分析48
3.9數據可視化48
3.10分析結果的使用49
作業(yè)50第4章大數據分析基本原則52
4.1大數據的現代分析原則54
4.2原則1: 實現商業(yè)價值和影響56
4.3原則2: 專注于最后一千米56
4.4原則3: 持續(xù)改善57
4.5原則4: 加速學習能力和執(zhí)行力58
4.6原則5: 差異化分析58
4.7原則6: 嵌入分析59
4.8原則7: 建立現代分析架構59
4.9原則8: 構建人力因素60
4.10原則9: 利用消費化趨勢60
作業(yè)61第5章構建分析路線63
5.1什么是分析路線66
5.1.1商業(yè)競爭3.0時代66
5.1.2創(chuàng)建獨特的分析路線67
5.2第1步: 確定關鍵業(yè)務目標69
5.3第2步: 定義價值鏈69
5.4第3步: 頭腦風暴分析解決方案機會71
5.4.1應用描述71
5.4.2分析手段71
5.5第4步: 描述分析解決方案機會74
5.6第5步: 創(chuàng)建決策模型74
5.7第6步: 評估分析解決方案機會75
5.8第7步: 建立分析路線圖77
5.9第8步: 不斷演進分析路線圖77
作業(yè)77第6章大數據分析的運用79
6.1企業(yè)分析的分類81
6.2戰(zhàn)略分析82
6.2.1專案分析83
6.2.2戰(zhàn)略市場細分84
6.2.3經濟預測84
6.2.4業(yè)務模擬84
6.3管理分析85
6.4運營分析86
6.5科學分析88
6.6面向客戶的分析89
6.6.1預測服務89
6.6.2分析應用89
6.6.3消費分析90
6.6.4案例: 大數據促進商業(yè)決策91
作業(yè)94第7章大數據分析的用例96
7.1什么是用例100
7.2預測用例101
7.3解釋用例104
7.4預報用例104
7.5發(fā)現用例106
7.6模擬用例106
7.7優(yōu)化用例107
作業(yè)107第8章預測分析方法109
8.1預測分析方法論111
8.2定義業(yè)務需求113
8.2.1理解業(yè)務問題113
8.2.2定義應對措施113
8.2.3了解誤差成本115
8.2.4確定預測窗口116
8.2.5評估部署環(huán)境116
8.3建立分析數據集117
8.3.1配置數據117
8.3.2評估數據117
8.3.3調查異常值118
8.3.4轉換數據119
8.3.5執(zhí)行基本表操作119
8.3.6處理丟失數據120
8.4降維與特征工程120
8.4.1降維120
8.4.2特征工程120
8.4.3特征變換123
8.5建立預測模型123
8.5.1制訂建模計劃123
8.5.2細分數據集124
8.5.3執(zhí)行模型訓練計劃125
8.5.4測量模型效果125
8.5.5驗證模型126
8.6部署預測模型126
8.6.1審查和批準預測模型127
8.6.2執(zhí)行模型評分127
8.6.3評價模型效果128
8.6.4管理模型資產128
8.7預測分析軟件系統(tǒng)129
作業(yè)129第9章預測分析技術132
9.1關于預測分析技術136
9.2統(tǒng)計分析136
9.3生存分析137
9.4有監(jiān)督和無監(jiān)督學習138
9.4.1有監(jiān)督學習138
9.4.2無監(jiān)督學習140
9.4.3有監(jiān)督和無監(jiān)督學習的區(qū)別141
9.5機器學習141
9.5.1機器學習的思路141
9.5.2異常檢測142
9.5.3過濾144
9.5.4貝葉斯網絡145
9.5.5文本挖掘146
9.6神經網絡147
9.7深度學習149
9.8語義分析151
9.8.1自然語言處理152
9.8.2文本分析152
9.8.3文本處理153
9.8.4語義檢索154
9.8.5A/B測試154
9.9視覺分析155
9.9.1熱點圖156
9.9.2空間數據圖156
作業(yè)157第10章大數據分析模型161
10.1什么是分析模型169
10.2關聯(lián)分析模型169
10.2.1回歸分析170
10.2.2關聯(lián)規(guī)則分析171
10.2.3相關分析172
10.2.4相關分析與回歸分析173
10.3分類分析模型173
10.3.1判別分析的原理和方法174
10.3.2基于機器學習的分類模型174
10.3.3支持向量機175
10.3.4邏輯回歸176
10.3.5決策樹176
10.3.6k近鄰177
10.3.7隨機森林178
10.3.8樸素貝葉斯180
10.4聚類分析模型180
10.4.1聚類問題分析181
10.4.2聚類分析的分類182
10.4.3聚類有效性的評價183
10.4.4聚類分析方法183
10.4.5聚類分析的應用184
10.5結構分析模型184
10.5.1典型的結構分析方法184
10.5.2社團發(fā)現185
10.6文本分析模型185
作業(yè)186第11章用戶角色與分析工具189
11.1用戶角色193
11.1.1超級分析師193
11.1.2數據科學家194
11.1.3業(yè)務分析師195
11.1.4分析使用者195
11.2分析的成功因素196
11.3分析編程語言197
11.3.1R語言197
11.3.2SAS編程語言199
11.3.3SQL200
11.4業(yè)務用戶工具201
11.4.1BI的常用技術201
11.4.2BI工具和方法的發(fā)展歷程202
11.4.3新的分析工具與方法204
11.4.4業(yè)務工具實例206
作業(yè)208第12章大數據分析平臺210
12.1分布式分析217
12.1.1關于并行計算217
12.1.2并行計算的三種形式218
12.1.3數據并行與“正交”218
12.1.4分布式的軟件環(huán)境219
12.2預測分析架構220
12.2.1獨立分析220
12.2.2部分集成分析221
12.2.3基于數據庫的分析223
12.2.4基于Hadoop的分析224
12.3Apache Spark分布式分析軟件225
12.4云計算中的分析227
12.4.1公有云和私有云228
12.4.2安全和數據移動229
12.5現代SQL平臺229
12.5.1什么是現代SQL平臺230
12.5.2現代SQL平臺區(qū)別于傳統(tǒng)SQL平臺231
12.5.3MPP數據庫232
12.5.4SQLonHadoop232
12.5.5NewSQL數據庫233
12.5.6現代SQL平臺的發(fā)展233
作業(yè)234第13章社交網絡與推薦系統(tǒng)236
13.1社交網絡的定義239
13.1.1社交網絡的特點240
13.1.2社交網絡度量241
13.1.3社交網絡學習242
13.2社交網絡的結構243
13.2.1社交網絡的統(tǒng)計學構成244
13.2.2社交網絡的群體形成245
13.2.3圖與網絡分析246
13.3社交網絡的關聯(lián)分析248
13.4推薦系統(tǒng)248
13.4.1推薦系統(tǒng)的概念248
13.4.2推薦方法的組合251
13.4.3推薦系統(tǒng)的評價252
13.5協(xié)同過濾252
13.6推薦方法254
13.6.1基于用戶評價的推薦254
13.6.2基于人的推薦255
13.6.3基于標簽的推薦255
作業(yè)256第14章組織分析團隊258
14.1企業(yè)的分析文化262
14.1.1管理分析團隊的有效因素262
14.1.2繁榮分析的文化共性263
14.2數據科學家(數據工作者)264
14.2.1數據科學家角色264
14.2.2分析人才的四種角色264
14.2.3數據準備專業(yè)人員266
14.2.4分析程序員266
14.2.5分析經理267
14.2.6分析通才268
14.2.7吸引數據科學家269
14.3集中式與分散式分析團隊270
14.4組織分析團隊272
14.4.1卓越中心272
14.4.2首席數據官與首席分析官272
14.4.3實驗室團隊273
14.4.4數據科學技能自我評估273
14.5走起,大數據分析275
作業(yè)276附錄278
附錄A部分作業(yè)參考答案278
附錄B大數據分析課程實踐280
B.1大數據幫零售企業(yè)制定促銷策略280
B.2電信公司通過大數據分析挽回核心客戶280
B.3大數據幫能源企業(yè)設置發(fā)電機地點281
B.4電商企業(yè)通過大數據制定銷售戰(zhàn)略281
B.5案例分析與課程實踐要求281
參考文獻284