定 價:58 元
叢書名:大數據類專業(yè)規(guī)劃教材 , 大數據技術與應用叢書
當前圖書已被 34 所學校薦購過!
查看明細
- 作者:黑馬程序員 著
- 出版時間:2020/4/1
- ISBN:9787302550877
- 出 版 社:清華大學出版社
- 中圖法分類:TP274
- 頁碼:394
- 紙張:膠版紙
- 版次:1
- 開本:16開
數據清洗是大數據預處理的關鍵環(huán)節(jié)。面對錯綜復雜的數據,傳統(tǒng)的清洗“臟”數據工作單調且異常辛苦,如果能利用正確的工具和方法,可以讓數據清洗工作變得事半功倍。
《數據清洗》講解數據清洗的理論知識和實際應用,《數據清洗》共8章:第1章主要帶領大家簡單認識數據清洗;第2章主要講解ETL技術相關的知識;第3章講解Kettle工具的基本使用;第4章主要講解數據清洗的一步——數據抽取;第5章主要講解數據清洗與檢驗;第6章主要講解數據轉換相關的知識;第7章主要講解數據加載相關的知識;第8章利用前面章節(jié)所學的知識構建一個DVD租賃商店數據倉庫,目的是實現定期從源數據庫sakila中抽取增量數據,轉換成F合DVD租賃業(yè)務的數據,最后加載到DVD租賃商店數據倉庫中,便于后續(xù)在線DVD租賃商店的決策者對數據進行分析得出商業(yè)決策。
《數據清洗》附有配套視頻、源代碼、習題、教學設計、教學課件等資源。同時,為了幫助初學者更好地學習《數據清洗》中的內容,還提供了在線答疑,歡迎讀者關注。
《數據清洗》可作為高等院校本專科計算機、信息管理等相關專業(yè)的大數據課程教材,也可供相關技術人員參考,是一本適合廣大計算機編程愛好者的優(yōu)秀讀物。
近年來,大數據技術掀起了計算機領域的一個新浪潮,無論是數據挖掘、數據分析、數據可視化,還是機器學習、人工智能,它們都繞不開“數據”這個主題。從統(tǒng)計學家到軟件開發(fā)人員,再到圖形設計師,越來越多的人對數據科學產生了興趣,廉價的硬件、可靠的數據處理工具和數據可視化工具以及海量的數據,這些資源使我們能夠輕松地、精確地發(fā)現趨勢、預測未來。
由于海量數據的來源是廣泛的,數據類型也是多而繁雜的,因此數據中會夾雜著不完整的、重復的以及錯誤的數據,如果直接使用這些原始數據,會嚴重影響數據決策的效率。因此,對原始數據進行有效的清洗是大數據分析和應用過程中的關鍵環(huán)節(jié)。
本書共分為8章,各章內容介紹如下:
第1章主要是帶領大家簡單認識數據清洗的背景、定義、原理、基本流程、清洗策略以及常見的數據清洗方法。通過本章的學習,讀者可以對數據清洗有基本的認識,便于后續(xù)章節(jié)的學習。
第2章主要講解ETL技術相關的知識,即基于ETL的數據清洗(ETL的概念、體系結構)、ETL關鍵技術(抽取數據的技術、數據清洗轉換的技術以及數據加載的技術)和ETL常見工具。通過本章的學習,讀者可以認識ETL,并熟悉ETL的關鍵技術和ETL常見的工具。
第3章主要講解數據清洗工具Kettle的相關知識,即Kettle的概述、設計原則、下載安裝以及基本概念和基本功能。通過本章的學習,讀者可以使用Kettle工具對ETL數據進行相關處理(抽取、清洗轉換以及加載)。
第4章主要講解數據清洗的第一步——數據抽取,即抽取文本數據、Web數據以及數據庫數據的相關知識。通過本章的學習,讀者可以掌握抽取各種形式的數據并保存至數據庫中,便于后續(xù)對數據進行相關清洗轉換和分析。
第5章主要講解數據的清洗與檢驗相關的知識,即數據去重、缺失值處理、異常值處理以及數據檢驗知識。通過本章的學習,讀者可以掌握對重復數據、缺失值數據、異常值數據的處理,也可以掌握對數據進行檢驗的操作。
第6章主要講解數據轉換相關的知識,即多數據源合并、不一致數據轉換、數據粒度的轉換、數據的商務規(guī)則計算的知識。通過本章的學習,讀者可以掌握數據轉換操作,實現將企業(yè)中的數據進行規(guī)范化處理。
第1章 數據清洗概述
1.1 數據清洗的背景
1.1.1 數據質量概述
1.1.2 數據質量的評價指標
1.1.3 數據質量的問題分類
1.2 數據清洗的定義
1.3 數據清洗的原理
1.4 數據清洗的基本流程
1.5 數據清洗的策略
1.6 常見的數據清洗方法
1.7 本章小結
1.8 本章習題
第2章 初識ETL
2.1 基于ETL的數據清洗
2.1.1 ETL的概念
2.1.2 ETL的體系結構
2.2 ETL關鍵技術
2.2.1 數據的抽取
2.2.2 數據的清洗轉換
2.2.3 數據的加載
2.3 ETL常見工具介紹
2.4 本章小結
2.5 本章習題
第3章 Kettle工具的基本使用
3.1 Kettle簡介
3.1.1 Kettle概述
3.1.2 Kettle的設計原則
3.2 Kettle的下載安裝
3.3 Kettle的基本概念
3.3.1 轉換
3.3.2 作業(yè)
3.4 Kettle的基本功能
3.4.1 轉換管理
3.4.2 作業(yè)管理
3.4.3 數據庫連接
3.5 本章小結
3.6 本章習題
第4章 數據抽取
4.1 抽取文本數據
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web數據
4.2.1 HTML網頁的數據抽取
4.2.2 XML文件的數據抽取
4.2.3 JSON文件的數據抽取
4.3 抽取數據庫數據
4.3.1 抽取關系型數據庫的數據
4.3.2 抽取非關系型數據庫的數據
4.4 本章小結
4.5 本章習題
……
第5章 數據的清洗與檢驗
第6章 數據轉換
第7章 數據加載
第8章 綜合案例——構建DVD租賃商店數據倉庫