深入淺出數(shù)據(jù)科學(xué):Python編程
定 價(jià):79.8 元
當(dāng)前圖書(shū)已被 2 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:[美]布拉德福德·塔克菲爾德(Bradford Tuckfield)
- 出版時(shí)間:2025/6/1
- ISBN:9787115636225
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
本書(shū)通過(guò)對(duì)數(shù)據(jù)科學(xué)技術(shù)基本技能和豐富實(shí)用的示例的介紹,展示如何獲取、分析和可視化數(shù)據(jù),利用數(shù)據(jù)應(yīng)對(duì)常見(jiàn)的業(yè)務(wù)挑戰(zhàn)。通過(guò)優(yōu)化共享單車(chē)公司的業(yè)務(wù)運(yùn)營(yíng)、從網(wǎng)站上提取數(shù)據(jù)并創(chuàng)建推薦系統(tǒng)等示例,你將學(xué)會(huì)如何找到數(shù)據(jù)驅(qū)動(dòng)的解決方案并使用這些方案做出商業(yè)決策。本書(shū)所涵蓋的內(nèi)容包括進(jìn)行探索性數(shù)據(jù)分析、運(yùn)行 A/B 測(cè)試、使用邏輯回歸模型進(jìn)行二分類及使用機(jī)器學(xué)習(xí)算法等。通過(guò)本書(shū),你還將學(xué)習(xí)如何預(yù)測(cè)客戶需求、優(yōu)化營(yíng)銷(xiāo)活動(dòng)、減少客戶流失、預(yù)測(cè)網(wǎng)站流量,以及構(gòu)建推薦系統(tǒng)等。
數(shù)據(jù)科學(xué)實(shí)用入門(mén)指南,涵蓋核心技能與豐富實(shí)用案例,助你應(yīng)對(duì)常見(jiàn)商業(yè)挑戰(zhàn)。
包含探索性數(shù)據(jù)分析、A/B 測(cè)試、邏輯回歸模型、機(jī)器學(xué)習(xí)算法等多方面內(nèi)容。
通過(guò)優(yōu)化共享單車(chē)運(yùn)營(yíng)、構(gòu)建推薦系統(tǒng)等案例,傳授數(shù)據(jù)驅(qū)動(dòng)解決方案,支持商業(yè)決策。
只需具備 Python 基礎(chǔ)知識(shí)和高中數(shù)學(xué)知識(shí),即可輕松閱讀并應(yīng)用數(shù)據(jù)科學(xué)。
布拉德福德·塔克菲爾德(Bradford Tuckfield)是一名數(shù)據(jù)科學(xué)顧問(wèn)兼作家,擁有賓夕法尼亞大學(xué)沃頓商學(xué)院的博士學(xué)位,以及楊百翰大學(xué)的數(shù)學(xué)學(xué)士學(xué)位。他曾在知名金融公司和初創(chuàng)企業(yè)擔(dān)任數(shù)據(jù)科學(xué)家和技術(shù)經(jīng)理。他著有 Dive Into Algorithms和 Applied Unsupervised Learning with R,還在多家學(xué)術(shù)期刊發(fā)表過(guò)研究成果。
1 探索性數(shù)據(jù)分析 1
1.1 作為 CEO 的第 一天 1
1.1.1 找出數(shù)據(jù)中的規(guī)律 2
1.1.2 使用.csv 文件查看和存儲(chǔ)數(shù)據(jù) . 4
1.2 用 Python 顯示數(shù)據(jù) 4
1.3 計(jì)算匯總統(tǒng)計(jì)信息 6
1.4 分析數(shù)據(jù)子集 8
1.4.1 夜間數(shù)據(jù) 8
1.4.2 季節(jié)性數(shù)據(jù) 9
1.5 使用 Matplotlib 進(jìn)行數(shù)據(jù)可視化 10
1.5.1 繪制并顯示一個(gè)簡(jiǎn)單的圖表 10
1.5.2 為圖表添加標(biāo)題和標(biāo)簽 11
1.5.3 繪制數(shù)據(jù)子集圖表 12
1.5.4 測(cè)試不同繪圖類型 13
1.6 探索相關(guān)性 18
1.6.1 計(jì)算相關(guān)系數(shù) 18
1.6.2 理解強(qiáng)相關(guān)性和弱相關(guān)性 18
1.6.3 尋找變量之間的相關(guān)性 21
1.7 創(chuàng)建熱力圖 22
1.8 進(jìn)一步探索 24
1.9 本章小結(jié) 24
2 預(yù)測(cè) 25
2.1 預(yù)測(cè)客戶需求 25
2.2 清洗錯(cuò)誤數(shù)據(jù) 26
2.3 使用數(shù)據(jù)繪圖從而發(fā)現(xiàn)趨勢(shì) 28
2.4 執(zhí)行線性回歸 29
2.4.1 將代數(shù)應(yīng)用于回歸線 30
2.4.2 計(jì)算誤差測(cè)量 32
2.5 使用回歸預(yù)測(cè)未來(lái)趨勢(shì) 35
2.6 嘗試更多的回歸模型 36
2.6.1 通過(guò)多變量線性回歸對(duì)銷(xiāo)售量進(jìn)行預(yù)測(cè) 36
2.6.2 用三角函數(shù)捕捉變化 38
2.7 選擇用于預(yù)測(cè)的最佳回歸模型 41
2.8 進(jìn)一步探索 44
2.9 本章小結(jié) 45
3 分組比較 46
3.1 讀取總體數(shù)據(jù) 46
3.1.1 匯總統(tǒng)計(jì)信息 47
3.1.2 隨機(jī)采樣 48
3.1.3 樣本數(shù)據(jù)之間的差異 50
3.2 進(jìn)行假設(shè)檢驗(yàn) 53
3.2.1 t 檢驗(yàn) 53
3.2.2 假設(shè)檢驗(yàn)的細(xì)微差別 55
3.3 在實(shí)際環(huán)境中進(jìn)行組間比較 56
3.4 本章小結(jié) 59
4 A/B 測(cè)試 60
4.1 實(shí)驗(yàn)的必要性 60
4.2 運(yùn)行實(shí)驗(yàn)來(lái)檢驗(yàn)新的假設(shè) 61
4.2.1 理解 A/B 測(cè)試的數(shù)學(xué)原理 64
4.2.2 將數(shù)學(xué)轉(zhuǎn)化為實(shí)踐 65
4.3 優(yōu)化冠軍/挑戰(zhàn)者框架 66
4.4 用泰曼定律和 A/A 測(cè)試預(yù)防錯(cuò)誤 67
4.5 理解效應(yīng)值 69
4.6 計(jì)算數(shù)據(jù)的顯著性 70
4.7 應(yīng)用及注意事項(xiàng) 72
4.8 A/B 測(cè)試的倫理問(wèn)題 73
4.9 本章小結(jié) 74
5 二分類算法 75
5.1 減少客戶流失 75
5.2 利用線性概率模型發(fā)現(xiàn)高流失風(fēng)險(xiǎn)客戶 76
5.2.1 繪制流失情況數(shù)據(jù)圖表 77
5.2.2 用線性回歸確定關(guān)系 78
5.2.3 預(yù)測(cè)未來(lái) 80
5.2.4 提出業(yè)務(wù)建議 81
5.2.5 測(cè)量預(yù)測(cè)準(zhǔn)確性 82
5.2.6 使用多變量線性概率模型 84
5.2.7 創(chuàng)建新指標(biāo) 85
5.2.8 線性概率模型的缺點(diǎn) 87
5.3 用邏輯回歸預(yù)測(cè)二分類結(jié)果 87
5.3.1 繪制邏輯曲線 88
5.3.2 邏輯回歸 89
5.4 二分類的應(yīng)用 91
5.5 本章小結(jié) 91
6 監(jiān)督學(xué)習(xí) 92
6.1 預(yù)測(cè)網(wǎng)站流量 92
6.2 讀取并繪制文章數(shù)據(jù) 93
6.3 使用線性回歸作為預(yù)測(cè)方法 95
6.4 理解監(jiān)督學(xué)習(xí) 96
6.5 k 近鄰 98
6.5.1 使用 kNN 99
6.5.2 使用 Python 的 sklearn 執(zhí)行kNN 100
6.6 使用其他監(jiān)督學(xué)習(xí)算法 101
6.6.1 決策樹(shù) 102
6.6.2 隨機(jī)森林 104
6.6.3 神經(jīng)網(wǎng)絡(luò) 104
6.7 測(cè)量預(yù)測(cè)準(zhǔn)確性的指標(biāo) 106
6.8 使用多變量模型 108
6.9 使用分類代替回歸 108
6.10 本章小結(jié) 110
7 無(wú)監(jiān)督學(xué)習(xí) 111
7.1 無(wú)監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí) 111
7.2 生成和探索數(shù)據(jù) 112
7.2.1 擲色子 112
7.2.2 使用另一種色子 115
7.3 聚類觀測(cè)的來(lái)源 117
7.4 實(shí)際業(yè)務(wù)中的聚類 120
7.5 分析多維數(shù)據(jù) 121
7.6 EM 聚類 123
7.6.1 “猜測(cè)”步驟 124
7.6.2 “期望”步驟 125
7.6.3 “最大化”步驟 127
7.6.4 “收斂”步驟 129
7.7 其他聚類方法 131
7.8 其他無(wú)監(jiān)督學(xué)習(xí)方法 133
7.9 本章小結(jié) 134
8 網(wǎng)絡(luò)爬取 135
8.1 理解網(wǎng)站是如何運(yùn)行的 135
8.2 創(chuàng)建第 一個(gè)網(wǎng)頁(yè)爬蟲(chóng) 137
8.3 解析 HTML 代碼 138
8.3.1 爬取電子郵件地址 138
8.3.2 直接搜索地址 139
8.4 使用正則表達(dá)式執(zhí)行搜索 140
8.4.1 使用元字符進(jìn)行靈活的搜索 142
8.4.2 使用轉(zhuǎn)義序列對(duì)搜索進(jìn)行微調(diào) 142
8.4.3 結(jié)合文本和元字符進(jìn)行高級(jí)搜索 144
8.5 使用正則表達(dá)式搜索電子郵件地址 145
8.6 將爬取的結(jié)果轉(zhuǎn)換為可用數(shù)據(jù) 145
8.7 使用 Beautiful Soup 147
8.7.1 解析 HTML 標(biāo)簽元素 148
8.7.2 爬取和解析 HTML 表格 149
8.8 高級(jí)爬取 150
8.9 本章小結(jié) 151
9 推薦系統(tǒng) 152
9.1 基于人氣的推薦 152
9.2 基于商品的協(xié)同過(guò)濾 154
9.2.1 量化向量相似性 155
9.2.2 計(jì)算余弦相似度 157
9.2.3 實(shí)現(xiàn)基于商品的協(xié)同過(guò)濾 158
9.3 基于用戶的協(xié)同過(guò)濾 159
9.4 案例研究:音樂(lè)推薦 162
9.5 用高級(jí)系統(tǒng)生成推薦 163
9.6 本章小結(jié) 164
10 自然語(yǔ)言處理 . 165
10.1 使用 NLP 技術(shù)檢測(cè)抄襲 165
10.2 理解 word2vec NLP 模型 166
10.2.1 量化單詞之間的相 似性 167
10.2.2 創(chuàng)建一個(gè)方程組 168
10.3 word2vec 中的數(shù)值向量分析 172
10.3.1 通過(guò)數(shù)學(xué)運(yùn)算來(lái)操作向量 174
10.3.2 使用 word2vec 檢測(cè)抄襲 175
10.4 使用 skip-thoughts 176
10.5 主題建模 178
10.6 其他 NLP 應(yīng)用 180
10.7 本章小結(jié) 180
11 其他語(yǔ)言中的數(shù)據(jù)科學(xué) 181
11.1 用 SQL 贏得足球比賽 181
11.1.1 讀取和分析數(shù)據(jù) 182
11.1.2 熟悉 SQL 183
11.1.3 設(shè)置 SQL 數(shù)據(jù)庫(kù) 183
11.1.4 運(yùn)行 SQL 查詢 184
11.1.5 使用連接從多張表取得數(shù)據(jù) 186
11.2 用 R 贏得足球比賽 189
11.2.1 熟悉 R 189
11.2.2 在 R 中使用線性回歸 190
11.2.3 使用 R 對(duì)數(shù)據(jù)進(jìn)行 繪圖 191
11.3 獲得其他有價(jià)值的技能 193
11.4 本章小結(jié) 194