本書首先介紹了R語言的相關知識,包括R語言基礎、R語言可視化技術。隨后本書詳細介紹了數據挖掘與數據分析中重要的理論方法與基礎知識,包括線性回歸、邏輯回歸、決策樹與回歸樹、隨機森林、貝葉斯分類器等內容,并展示了如何將R語言用到這些方法的具體場景中。本書通過結合數據挖掘技術的理論知識與R語言的實戰(zhàn)應用,幫助讀者更好地運用R語言解決數據挖掘中的實際問題。
本書適合作為高等院校管理科學與工程類專業(yè)、工商管理類專業(yè)、工程管理類專業(yè)碩士研究生的數據挖掘與商務數據分析課程的教材,還適合作為相關專業(yè)博士研究生的參考資料。
數據挖掘與數據分析:基于R語言,經管專業(yè)相關學生課程
在人類社會發(fā)展的進程中,數據一直承載著信息記錄的重要作用。從人類文明誕生伊始的結繩記事,到當今信息技術的數學建模,數據見證了人類歷史的進步與變遷。近年來,隨著大數據時代的來臨,數據生成往往具有速度快、數據量大的特點,數據結構多樣復雜,其中蘊含的應用價值非常高。
為了應對日趨復雜的海量數據,數據分析技術得到了快速發(fā)展。傳統(tǒng)的數據分析技術側重于對統(tǒng)計學方法的應用,如今,側重于機器學習的數據挖掘技術正不斷走向成熟。數據挖掘技術可以從大量模糊的現實數據中挖掘出潛在的信息,借助數據庫技術、機器學習、數學算法、可視化技術等手段揭示事物之間的關聯性和潛在規(guī)律,使數據轉變成信息,信息進一步升華為知識?梢灶A見的是,在未來的農業(yè)、工業(yè)、教育、醫(yī)療等多個領域的推動下,數據分析技術將發(fā)展到一個全新的高度,也必將扮演更加重要的角色。
我們在西北工業(yè)大學為碩士研究生(含學術學位和專業(yè)學位)開設了數據挖掘與商務數據分析課程,該課程目前已設立5年之久,學習該課程的學生累計超過550人。課程中制作的講義課件和相關案例是本書理論部分的基礎,實驗課上的數據集和上機內容則構成了本書實踐部分的主體。隨著課程內容的迭代與積累,本書包含的內容也在不斷豐富完善。本書定稿后已在西北工業(yè)大學作為教材試用。
課程開設之初,我們查閱過許多數據挖掘相關的圖書,遺憾的是,它們包含的內容并不足以匹配我們課程的教學目標。為了讓學生熟練掌握數據挖掘技術的理論方法與基礎知識,并能夠將其付諸實踐,我們在本書的前兩章中詳細介紹了R語言基礎,同時結合實例給出了具體操作過程。我們希望讀者能夠在不借助任何其他課程知識的情況下,即可對商務應用場景中的數據進行描述性數據分析、可視化和高級數據模型構建。
概述
總的來說,本書將數據分析和挖掘基本原理、數據分析案例、模型構建、模型代碼實現和結果分析相結合,幫助讀者更好地掌握R語言在實際場景中的應用,根據具體業(yè)務需求制定智能決策方案。
本書總共有12章,前10章包含10個主題:R語言基礎、R語言可視化技術、線性回歸、邏輯回歸、決策樹與回歸樹、隨機森林、貝葉斯分類器、層次聚類、K均值聚類、關聯規(guī)則分析。本書的最后兩章介紹了兩個具體的案例分析。
為了加深讀者對每部分知識的理解,提高讀者的實踐能力,我們在每章結尾處都設置了本章小結和課后習題。
本書提供的教輔材料包括:課程幻燈片、實驗數據集、源代碼、課后習題及答案。
本書的編寫過程獲得了多位老師的大力相助。王陽老師主要負責設計本書整體框架,并撰寫了本書的大部分內容。胡文杰老師主要負責編寫代碼,對代碼運行結果進行分析,設計例題以及校對文字。梁韻基老師主要負責設計案例和校對文字。馮建廣老師撰寫了本書的線性回歸與邏輯回歸部分,周珍與張新衛(wèi)老師共同編寫了決策樹與回歸樹、隨機森林兩個部分的內容,陳志老師主要設計了兩個具體的案例分析。
致謝
本書在編寫的過程中,許多人為其付出了心血。在此感謝西北工業(yè)大學信息與知識管理團隊的學生,王秋實、范瓊瑜、周思佳、閆勇為本書實驗部分的代碼編寫與測試投入了大量精力,王俊鵬、翟寒、吳松給本書提出了許多重要的建議及反饋。我們同時要感謝西北工業(yè)大學選修數據挖掘與商務數據分析課程的同學,他們作為本書的第一批使用者,提出了寶貴的修改意見。
我們還要感謝西北工業(yè)大學的其他老師,他們?yōu)楸緯峁┝烁挥薪ㄔO性的反饋,特別感謝陳志老師為本書的實驗部分提供了豐富的計算資源,搭建了良好的測試環(huán)境。
王陽,教授、博導。主要研究領域為智能決策與優(yōu)化、組合優(yōu)化、醫(yī)療運作管理等。西北工業(yè)大學計算機學院獲得學士、碩士學位,2013年在法國昂熱大學獲得博士學位,并在法國昂熱大學和加拿大西門菲莎大學從事了博士后研究工作,2014年進入西北工業(yè)大學管理學院工作。主持國家自然科學基金項目2項,省部級科研項目4項,榮獲陜西省哲學社會科學優(yōu)秀成果一等獎。在國內外學術期刊上共發(fā)表論文20余篇,其中包括經濟管理領域頂級UTD-24期刊Informs Journal On Computing (IJOC) 2篇。
第1章 R語言基礎
第2章 R語言可視化技術
第3章 線性回歸
第4章 邏輯回歸
第5章 決策樹與回歸樹
第6章 隨機森林
第7章 貝葉斯分類器
第8章 層次聚類
第9章 K均值聚類
第10章 關聯規(guī)則分析
第11章 案例分析之隨機森林
第12章 案例分析之K均值聚類