本書是數據科學方法及應用系列教材之一。本書融合統計學和數據科學的方法,系統介紹描述統計和探索性數據分析的原理和方法。主要內容包括:指標設計、數據預處理、描述統計量計算、數據可視化、相關分析、關聯分析、聚類分析、綜合指數分析等。重點介紹數據分析的統計流程和軟件實現方法,培養(yǎng)學生理解數據、分析數據的基本能力。
本書將基本理論與應用相結合,實用性、操作性較強,可廣泛應用在需要開展數據分析的各個領域。本書采用四模塊結構:理論與方法+案例分析+R軟件應用(含代碼)+思考與練習,并提供第3~8章的在線自測習題,習題內容覆蓋主要學習要點,題型包括選擇題、填空題、計算題、軟件應用題等,幫助學習者檢驗學習效果。通過掃描二維碼獲取相關在線資源和習題。
更多科學出版社服務,請掃碼獲取。
1990年,獲云南大學經濟學學士學位
1997年,獲云南大學統計學碩士學位
2004年-2005年,復旦大學訪問學者
2019年,英國普利茅斯大學University of Plymouth訪問學者
主要講授下列課程:經濟學基礎(一、二),經濟學原理,統計學原理,描述統計。(均為統計學本科專業(yè)課程)
目錄
叢書序
前言
第1章 總論 1
1.1 數據的定義 1
1.2 數據的特點 2
1.3 數據的類型 2
1.4 本書框架介紹 4
1.5 R軟件應用 7
初步認識R軟件 7
思考與練習 17
第2章 統計指標概述 18
2.1 統計指標的含義 18
2.1.1 指標與統計指標 18
2.1.2 統計指標的特點 19
2.1.3 統計指標的構成要素 20
2.2 統計指標類型 22
2.2.1 根據指標形式和作用分類 22
2.2.2 根據指標值獲取方式分類 22
2.2.3 根據指標反映的數量關系分類 22
2.2.4 根據指標數值類型分類 25
2.3 統計指標設計 26
2.3.1 統計指標設計原則 26
2.3.2 統計指標設計步驟 27
2.4 案例分析 29
可持續(xù)發(fā)展投入產出效率測度指標設計 29
2.5 R 軟件應用 31
創(chuàng)建數據對象及讀入外部數據 31
思考與練習 43
第3章 數據采集 45
3.1 數據采集渠道 45
3.1.1 調查 45
3.1.2 觀測 46
3.1.3 實驗 46
3.1.4 網絡數據采集 46
3.1.5 手機 APP 數據 47
3.2 數據采集方法及技術 47
3.2.1 抽樣調查方法 47
3.2.2 網絡數據采集方法 51
3.2.3 APP數據采集方法 53
3.3 案例分析 54
抽樣方法的具體應用 54
3.4 R軟件應用 59
抽樣方法和八爪魚軟件應用 59
思考與練習 67
第4章 數據預處理 69
4.1 數據審核 69
4.1.1 直接來源數據審核 69
4.1.2 間接來源數據審核 70
4.2 數據清洗 71
4.2.1 數據篩選 71
4.2.2 缺失數據處理 72
4.2.3 異常數據處理 74
4.2.4 數據脫敏 77
4.3 數據變換 77
4.3.1 數據編碼 77
4.3.2 數據標準化 78
4.4 數據集成 81
4.5 數據歸約 81
4.6 案例分析 82
缺失數據插補 82
4.7 R 軟件應用 86
數據采集與預處理 86
思考與練習 92
第5章 數據基本特征測度 93
5.1 數據基本特征概述 93
5.2 頻數統計 94
5.2.1 頻數統計概述 94
5.2.2 頻數統計表及編制 94
5.2.3 頻數統計表的類型 97
5.3 集中趨勢測度.99
5.3.1 幾種常見平均數 100
5.3.2 中位數 102
5.3.3 眾數 102
5.4 離散程度測度 104
5.5 數據分布形態(tài)測度 107
5.5.1 矩 107
5.5.2 偏度與偏度系數 108
5.5.3 峰度 109
5.6 動態(tài)趨勢測度 109
5.6.1 發(fā)展速度 110
5.6.2 增長速度 110
5.7 案例分析 111
R自帶數據集iris(鳶尾花)的描述統計指標計算 111
5.8 R軟件應用 114
計算描述統計量 114
思考與練習 123
第6章 數據可視化 124
6.1 統計圖形的基本要素 124
6.2 數據規(guī)模和結構可視化圖 125
6.2.1 條形圖 125
6.2.2 餅圖 127
6.2.3 玫瑰圖 128
6.2.4 矩形樹圖 131
6.2.5 馬賽克圖 132
6.3 數據分布可視化圖 133
6.3.1 直方圖 133
6.3.2 箱線圖 135
6.3.3 概率密度圖 136
6.4 數據變化趨勢圖 138
6.4.1 點圖 138
6.4.2 線圖 139
6.5 多維數據可視化 141
6.5.1 雷達圖 141
6.5.2 星圖 143
6.5.3 臉譜圖 144
6.6 文本數據可視化 146
6.6.1 詞云圖 146
6.6.2 社會網絡圖 147
6.7 案例分析 148
R數據集HairEyeColor(頭發(fā)眼睛顏色)可視化 148
R數據集iris (鳶尾花)植物特征可視化 150
R數據集ToothGrowth(豚鼠牙齒生長)特征可視化 153
6.8 R軟件應用.155
數據可視化 155
思考與練習 171
第7章 相關與關聯分析 172
7.1 相關關系 172
7.1.1 一般相關關系 172
7.1.2 典型相關分析 176
7.2 相關關系可視化 179
7.2.1 二維散點圖 179
7.2.2 三維散點圖 180
7.2.3 氣泡圖 182
7.2.4 散點圖矩陣 183
7.2.5 相關系數矩陣 185
7.3 關聯分析 186
7.3.1 關聯規(guī)則的基本概念 186
7.3.2 關聯規(guī)則的Apriori算法 190
7.4 案例分析 191
鳶尾花的外形特征相關關系 191
科技創(chuàng)新活動投入和產出的典型相關分析 194
Apriori 算法示例 200
7.5 R 軟件應用 203
相關與關聯分析 203
思考與練習 209
第8章 聚類分析 211
8.1 聚類分析概述 211
8.2 距離的計算方法 212
8.2.1 歐氏距離 212
8.2.2 曼哈頓距離 213
8.2.3 明氏距離 213
8.2.4 蘭氏距離 214
8.2.5 馬氏距離 214
8.2.6 相關距離 215
8.2.7 余弦相似度 215
8.2.8 漢明距離 215
8.3 聚類算法 216
8.3.1 系統聚類方法 216
8.3.2 K-means聚類法 222
8.3.3 K-modes聚類法 224
8.4 最佳K值的兩種確定方法 226
8.4.1 肘部法 226
8.4.2 輪廓系數法 229
8.5 案例分析 230
紅酒質量數據的聚類分析 230
8.6 R軟件應用.234
聚類函數的應用 234
思考與練習 237
第9章 綜合指數分析 238
9.1 綜合指數分析概述 238
9.2 以專家賦權為主的綜合指數分析 239
9.2.1 專家評分法 239
9.2.2 德爾菲法 241
9.2.3 層次分析法 241
9.3 以數據特征賦權為主的綜合指數分析 245
9.3.1 熵權法 245
9.3.2 變異系數法 247
9.3.3 主成分分析法 247
9.3.4 TOPSIS方法 250
9.3.5 灰色關聯分析法 252
9.4 案例分析 255
高技術產業(yè)創(chuàng)新能力綜合評價 255
9.5 R軟件應用 273
綜合指數計算 273
思考與練習 277
參考文獻 279
附錄 280