元學(xué)習(xí)在自動(dòng)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中的應(yīng)用(原書第二版)
定 價(jià):198 元
當(dāng)前圖書已被 32 所學(xué)校薦購(gòu)過!
查看明細(xì)
- 作者:李欣
- 出版時(shí)間:2024/6/1
- ISBN:9787030755346
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP181
- 頁碼:356
- 紙張:
- 版次:1
- 開本:B5
在這本書中,作者著力討論了幾種獲取機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法性能的相關(guān)知識(shí)的方法。作者展示了如何再次利用這些知識(shí)來選擇、組合、編撰和調(diào)整算法和模型,從而為數(shù)據(jù)挖掘提供更快、更有效的解決方案,幫助研究人員改進(jìn)算法,并開發(fā)能夠自我改進(jìn)的學(xué)習(xí)系統(tǒng)。本書的新版在舊版基礎(chǔ)上就內(nèi)容做了非常大的擴(kuò)充。作者介紹了最新的自動(dòng)機(jī)器學(xué)習(xí)方法,闡明了它與元學(xué)習(xí)之間的關(guān)系,他們解釋了操作鏈設(shè)計(jì)方法的自動(dòng)化問題。這本書將引起機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和人工智能領(lǐng)域的研究人員和研究生的興趣
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
李欣 (3/15); 中國(guó)石油未來5-10年油氣勘探重大領(lǐng)域評(píng)價(jià)及應(yīng)用, 中國(guó)石油天然氣集團(tuán)公司,科學(xué)技術(shù)進(jìn)步獎(jiǎng), 一等獎(jiǎng), 2015(楊 濤,閆偉鵬,李欣,胡素云,李建忠,張國(guó)生,郭彬程,林世國(guó),黃福喜,梁坤,呂維寧,武娜,鄭民,李登華,高陽)
目錄
前言
本書的基本架構(gòu)
致謝
第一部分 基本概念與架構(gòu)
第1章 簡(jiǎn)介3
1.1 本書的結(jié)構(gòu)3
1.2 基本概念與架構(gòu)(第一部分)4
1.2.1 基本概念4
1.2.2 問題類型6
1.2.3 元學(xué)習(xí)與AutoML系統(tǒng)的基本架構(gòu)7
1.2.4 使用來自先驗(yàn)數(shù)據(jù)集的元數(shù)據(jù)進(jìn)行算法選擇(第2、5章)7
1.2.5 不同系統(tǒng)的評(píng)價(jià)與比較(第3章)8
1.2.6 數(shù)據(jù)集特征/元特征的作用(第4章)8
1.2.7 不同類型的元級(jí)模型(第5章)9
1.2.8 超參數(shù)優(yōu)化(第6章)9
1.2.9 工作流設(shè)計(jì)的自動(dòng)化方法(第7章)10
1.3 先進(jìn)技術(shù)和方法(第二部分)10
1.3.1 設(shè)置構(gòu)形空間和實(shí)驗(yàn)(第8章)10
1.3.2 集成學(xué)習(xí)與數(shù)據(jù)流的自動(dòng)化方法11
1.3.3 元模型的跨任務(wù)遷移(第12章)12
1.3.4 深度神經(jīng)網(wǎng)絡(luò)的元學(xué)習(xí)(第13章)13
1.3.5 數(shù)據(jù)科學(xué)自動(dòng)化與復(fù)雜系統(tǒng)設(shè)計(jì)13
1.4 實(shí)驗(yàn)結(jié)果的儲(chǔ)存庫(第三部分)15
1.4.1 元數(shù)據(jù)的儲(chǔ)存庫(第16章)15
1.4.2 學(xué)習(xí)儲(chǔ)存庫中的元數(shù)據(jù)(第17章)15
1.4.3 結(jié)束語(第18章)16
參考文獻(xiàn)16
第2章 算法選擇的元學(xué)習(xí)方法(一)(排序設(shè)置)18
2.1 簡(jiǎn)介18
2.2 不同形式的推薦19
2.2.1 算法集中的最佳算法20
2.2.2 最優(yōu)算法子集20
2.2.3 線性排序21
2.2.4 準(zhǔn)線性(弱)排序22
2.2.5 不完全排序22
2.2.6 在特定的預(yù)算范圍內(nèi)尋找最佳算法22
2.3 算法選擇所需的排序模型23
2.3.1 以排序的形式生成元模型23
2.3.2 使用排序元模型進(jìn)行預(yù)測(cè)(top-n策略)26
2.3.3 對(duì)建議排序的評(píng)價(jià)29
2.4 實(shí)施精度與運(yùn)行時(shí)間的組合測(cè)度29
2.5 擴(kuò)展及其他方法31
2.5.1 采用平均排序法推薦工作流31
2.5.2 排序可能會(huì)降低數(shù)據(jù)集專家級(jí)算法的等級(jí)31
2.5.3 基于DEA多準(zhǔn)則分析的方法32
2.5.4 利用數(shù)據(jù)集的相似性來識(shí)別元數(shù)據(jù)的相關(guān)部分32
2.5.5 處理不完全排序32
參考文獻(xiàn)34
第3章 學(xué)習(xí)/自動(dòng)機(jī)器學(xué)習(xí)(AutoML)系統(tǒng)評(píng)價(jià)建議36
3.1 簡(jiǎn)介36
3.2 基礎(chǔ)算法的評(píng)估方法37
3.2.1 泛化誤差37
3.2.2 評(píng)估策略37
3.2.3 損失函數(shù)和損失38
3.3 基礎(chǔ)算法的性能歸一化38
3.4 元學(xué)習(xí)與AutoML系統(tǒng)的評(píng)估方法40
3.4.1 留出策略下的一次通過性評(píng)估40
3.4.2 采用交叉驗(yàn)證的元級(jí)評(píng)估42
3.5 根據(jù)相關(guān)度評(píng)估推薦42
3.6 評(píng)估推薦的效果44
3.6.1 性能損失和損失曲線44
3.6.2 用曲線下面積表征損失曲線45
3.6.3 將通過多程交叉驗(yàn)證的損失曲線聚合起來46
3.6.4 在特定時(shí)間預(yù)算內(nèi)進(jìn)行統(tǒng)計(jì)測(cè)試46
3.7 一些有用的度量標(biāo)準(zhǔn)47
3.7.1 松弛精度47
3.7.2 歸一化的“折算累計(jì)增益”47
參考文獻(xiàn)48
第4章 數(shù)據(jù)集特征(元特征)50
4.1 簡(jiǎn)介50
4.2 分類任務(wù)中采用的數(shù)據(jù)特征描述51
4.2.1 簡(jiǎn)單、統(tǒng)計(jì)型和信息理論型(SSI)元特征52
4.2.2 基于模型的元特征53
4.2.3 基于性能的元特征54
4.2.4 基于概念和復(fù)雜性的元特征55
4.3 回歸任務(wù)中采用的數(shù)據(jù)特征描述57
4.3.1 簡(jiǎn)單元特征和統(tǒng)計(jì)元特征57
4.3.2 基于復(fù)雜性的度量58
4.3.3 基于復(fù)雜性/模型的度量58
4.3.4 光滑度度量58
4.3.5 非線性度量59
4.4 時(shí)間序列任務(wù)中使用的數(shù)據(jù)特征描述59
4.5 聚類任務(wù)中采用的數(shù)據(jù)特征描述60
4.6 從基本集中衍生出新特征61
4.7 元特征的選擇64
4.7.1 靜態(tài)選擇元特征64
4.7.2 動(dòng)態(tài)(迭代)數(shù)據(jù)特征描述65
4.8 針對(duì)算法的表征和表示問題65
4.8.1 針對(duì)算法的數(shù)據(jù)特征描述65
4.8.2 表示問題66
4.9 確立數(shù)據(jù)集之間的相似度66
4.9.1 基于元特征的相似度66
4.9.2 基于算法性能結(jié)果的相似度67
參考文獻(xiàn)68
第5章 算法選擇元學(xué)習(xí)法(二)74
5.1 簡(jiǎn)介74
5.2 在元學(xué)習(xí)系統(tǒng)中運(yùn)用回歸模型75
5.2.1 實(shí)證性能模型75
5.2.2 性能歸一化77
5.2.3 性能模型77
5.2.4 聚類樹77
5.2.5 將性能預(yù)測(cè)轉(zhuǎn)化為排序78
5.2.6 針對(duì)每個(gè)實(shí)例的性能預(yù)測(cè)78
5.2.7 性能預(yù)測(cè)的優(yōu)點(diǎn)和缺點(diǎn)78
5.3 在元層次上使用分類進(jìn)行適用性預(yù)測(cè)79
5.4 基于成對(duì)比較的方法80
5.4.1 利用地標(biāo)的成對(duì)檢測(cè)81
5.4.2 針對(duì)局部學(xué)習(xí)曲線的成對(duì)方法81
5.5 算法集的成對(duì)方法84
5.6 用于實(shí)施成對(duì)測(cè)試的迭代方法87
5.7 使用ART樹和森林89
5.8 主動(dòng)測(cè)試90
5.8.1 兼顧準(zhǔn)確度和運(yùn)行時(shí)間的主動(dòng)測(cè)試90
5.8.2 重在相似數(shù)據(jù)集的主動(dòng)測(cè)試93
5.8.3 討論94
5.9 非命題方法94
參考文獻(xiàn)95
第6章 超參數(shù)優(yōu)化的元學(xué)習(xí)99
6.1 簡(jiǎn)介99
6.2 基本超參數(shù)優(yōu)化法101
6.2.1 基本概念101
6.2.2 基本優(yōu)化方法101
6.2.3 進(jìn)化法103
6.2.4 啟發(fā)式搜索法103
6.2.5 超梯度104
6.2.6 多保真技術(shù)104
6.3 貝葉斯優(yōu)化106
6.3.1 基于序變模型的優(yōu)化106
6.3.2 樹形結(jié)構(gòu)Parzen估計(jì)量(TPE)108
6.4 超參數(shù)優(yōu)化的元學(xué)習(xí)109
6.4.1 熱啟動(dòng):在初始化過程中利用元知識(shí)109
6.4.2 元知識(shí)在貝葉斯優(yōu)化中的應(yīng)用111
6.4.3 自適應(yīng)數(shù)據(jù)集相似度113
6.5 結(jié)束語113
參考文獻(xiàn)114
第7章 自動(dòng)化工作流/應(yīng)用流水線設(shè)計(jì)119
7.1 簡(jiǎn)介119
7.2 自動(dòng)工作流設(shè)計(jì)中的搜索約束120
7.2.1 定義備選方案的空間(描述性偏差)121
7.2.2 采用程序偏差的不同方式123
7.2.3 上下文無關(guān)文法(CFG)123
7.3 工作流設(shè)計(jì)中采用的策略126
7.3.1 運(yùn)算符126
7.3.2 人工選擇運(yùn)算符126
7.3.3 手動(dòng)修改現(xiàn)有工作流126
7.3.4 規(guī)劃在工作流設(shè)計(jì)中的應(yīng)用127
7.4 利用成功計(jì)劃(工作流)的排序131
參考文獻(xiàn)132
第二部分 先進(jìn)技術(shù)和方法
第8章 設(shè)置構(gòu)形空間與實(shí)驗(yàn)139
8.1 簡(jiǎn)介139
8.2 配置空間的類型140
8.2.1 與算法選擇相關(guān)聯(lián)的配置空間140
8.2.2 與超參數(shù)優(yōu)化及超參數(shù)優(yōu)化與算法選擇結(jié)合相關(guān)聯(lián)的配置空間140
8.2.3 與工作流設(shè)計(jì)相關(guān)聯(lián)的配置空間142
8.3 特定任務(wù)配置空間的充分性142
8.4 超參數(shù)重要度與邊際貢獻(xiàn)144
8.4.1 算法的邊際貢獻(xiàn)(工作流)144
8.4.2 確定特定數(shù)據(jù)集上的超參數(shù)重要性144
8.4.3 跨數(shù)據(jù)集確立超參數(shù)重要性145
8.5 縮減配置空間146
8.5.1 縮減算法/配置的組合146
8.5.2 面向度量組合的歸約法150
8.6 符號(hào)學(xué)習(xí)中的配置空間151
8.7 需要的數(shù)據(jù)集152
8.7.1 依賴現(xiàn)有的數(shù)據(jù)集儲(chǔ)存庫152
8.7.2 生成人工數(shù)據(jù)集153
8.7.3 生成現(xiàn)有數(shù)據(jù)集的變體153
8.7.4 分割大型數(shù)據(jù)集或數(shù)據(jù)流153
8.7.5 搜尋具有判別能力的數(shù)據(jù)集154
8.8 完備元數(shù)據(jù)與不完備元數(shù)據(jù)155
8.8.1 有無可能獲得完備的元數(shù)據(jù)156
8.8.2 有無必要擁有完備的元數(shù)據(jù)157
8.8.3 測(cè)試順序重不重要157
8.9 利用多臂老虎機(jī)的策略安排實(shí)驗(yàn)157
8.10 探討160
參考文獻(xiàn)160
第9章 將基學(xué)習(xí)器組合為集成學(xué)習(xí)器165
9.1 簡(jiǎn)介165
9.2 袋裝法和推進(jìn)法166
9.2.1 袋裝法166
9.2.2 推進(jìn)法167
9.3 堆疊與級(jí)聯(lián)歸納169
9.3.1 堆疊169
9.3.2 級(jí)聯(lián)歸納170
9.4 級(jí)聯(lián)與代理172
9.4.1 級(jí)聯(lián)172
9.4.2 委托174
9.5 仲裁法175
9.6 元決策樹177
9.7 討論179
參考文獻(xiàn)179
第10章 集成法中的元學(xué)習(xí)182
10.1 簡(jiǎn)介182
10.2 集成系統(tǒng)的基本特征183
10.3 基于選擇的集成構(gòu)建方法184
10.4 集成學(xué)習(xí)(每數(shù)據(jù)集)184
10.4.1 構(gòu)建和剪枝階段的元學(xué)習(xí)185
10.4.2 整合階段的元學(xué)習(xí)187
10.5 動(dòng)態(tài)選擇模型(每實(shí)例)188
10.6 創(chuàng)建層級(jí)集成模型190
10.6.1 層級(jí)集成模型190
10.6.2 利用進(jìn)化計(jì)算改進(jìn)層級(jí)集成模型190
10.6.3 層級(jí)集成方法中的元學(xué)習(xí)191
10.7 結(jié)論與未來研究展望191
參考文獻(xiàn)191
第11章 數(shù)據(jù)流算法推薦194
11.1 簡(jiǎn)介194
11.1.1 根據(jù)數(shù)據(jù)流場(chǎng)景調(diào)整批處理分類器196
11.1.2 根據(jù)數(shù)據(jù)流場(chǎng)景調(diào)整集成模型196
11.1.3 動(dòng)因197
11.2 基于元特征的方法197
11.2.1 方法198
11.2.2 訓(xùn)練元模型198
11.2.3 元特征199
11.2.4 超參數(shù)的考慮因素200
11.2.5 元模型200
11.2.6 數(shù)據(jù)流元學(xué)習(xí)系統(tǒng)的評(píng)估201
11.2.7 基準(zhǔn)201
11.2.8 討論202
11.3 數(shù)據(jù)流集成202
11.3.1 上一區(qū)間最佳分類器(Blast)203
11.3.2 漸消因子204
11.3.3 特征漂移的異構(gòu)集成205
11.3.4 選擇最佳分類器的考慮因素205
11.3.5 討論205
11.4 遞歸元級(jí)模型206
11.4.1 準(zhǔn)確度衡量的集成模型206
11.4.2 兩層架構(gòu)207
11.5 未來研究的挑戰(zhàn)208
參考文獻(xiàn)209
第12章 跨任務(wù)知識(shí)遷移212
12.1 簡(jiǎn)介212
12.2 背景、術(shù)語和符號(hào)213
12.2.1 遷移學(xué)習(xí)何時(shí)可用213
12.2.2 遷移學(xué)習(xí)的類型213
12.2.3 可以遷移哪些內(nèi)容214
12.3 遷移學(xué)習(xí)中的學(xué)習(xí)架構(gòu)215
12.3.1 神經(jīng)網(wǎng)絡(luò)中的遷移215
12.3.2 核方法中的遷移219
12.3.3 參數(shù)化貝葉斯模型中的遷移219
12.4 理論框架220
12.4.1 學(xué)會(huì)學(xué)習(xí)場(chǎng)景221
12.4.2 元學(xué)習(xí)器泛化誤差的界限221
12.4.3 其他理論研究222
12.4.4 元學(xué)習(xí)中的偏差與方差224
附錄A 224
參考文獻(xiàn)226
第13章 深度神經(jīng)網(wǎng)絡(luò)中的元學(xué)習(xí)230
13.1 簡(jiǎn)介230
13.2 背景和符號(hào)230
13.2.1 深度神經(jīng)網(wǎng)絡(luò)中的元抽象231
13.2.2 常用訓(xùn)練和評(píng)估程序231
13.2.3 本章剩余部分概述233
13.3 基于度量的元學(xué)習(xí)234
13.3.1 連體神經(jīng)網(wǎng)絡(luò)236
13.3.2 匹配網(wǎng)絡(luò)237
13.3.3 圖神經(jīng)網(wǎng)絡(luò)238
13.3.4 注意循環(huán)比較器239
13.4 基于模型的元學(xué)習(xí)240
13.4.1 記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)242
13.4.2 元網(wǎng)絡(luò)243
13.4.3 簡(jiǎn)單的神經(jīng)注意力學(xué)習(xí)器(SNAIL)245
13.4.4 條件神經(jīng)過程247
13.5 基于優(yōu)化的元學(xué)習(xí)248
13.5.1 LSTM優(yōu)化器249
13.5.2 強(qiáng)化學(xué)習(xí)優(yōu)化器250
13.5.3 模型無關(guān)元學(xué)習(xí)(MAML)251
13.5.4 爬行動(dòng)物253
13.6 討論與展望255
13.6.1 開放的挑戰(zhàn)256
13.6.2 未來的研究256
參考文獻(xiàn)257
第14章 數(shù)據(jù)科學(xué)自動(dòng)化261
14.1 簡(jiǎn)介261
14.2 確定當(dāng)前的問題/任務(wù)262
14.2.1 問題理解和描述262
14.2.2 生成任務(wù)描述符262
14.2.3 確定任務(wù)類型和目標(biāo)263
14.3 確定任務(wù)域和知識(shí)264
14.4 獲得數(shù)據(jù)265
14.4.1 選擇現(xiàn)有的數(shù)據(jù)或計(jì)劃如何獲得數(shù)據(jù)?265
14.4.2 確定特定域數(shù)據(jù)和背景知識(shí)265
14.4.3 從不同源中獲得數(shù)據(jù)和背景知識(shí)266
14.5 自動(dòng)化數(shù)據(jù)預(yù)處理和轉(zhuǎn)換266
14.5.1 數(shù)據(jù)轉(zhuǎn)換/數(shù)據(jù)整理267
14.5.2 實(shí)例選擇和模型壓縮269
14.5.3 自動(dòng)選擇預(yù)處理方法269
14.5.4 改變表征的顆粒度270
14.6 自動(dòng)模型及報(bào)告生成271
14.6.1 自動(dòng)模型生成及部署271
14.6.2 自動(dòng)報(bào)告生成271
參考文獻(xiàn)271
第15章 復(fù)雜系統(tǒng)設(shè)計(jì)自動(dòng)化275
15.1 簡(jiǎn)介275
15.2 利用一組豐富的運(yùn)算符276
15.3 引入新概念以改變粒度277
15.3.1 通過聚類定義新的概念277
15.3.2 構(gòu)造性歸納278
15.3.3 以規(guī)則為基礎(chǔ)的理論重構(gòu)278
15.3.4 引入表示為規(guī)則的新概念279
15.3.5 命題化280
15.3.6 深度神經(jīng)網(wǎng)絡(luò)中的自動(dòng)特征構(gòu)造280
15.3.7 重用新概念來重定義本體280
15.4 在繼續(xù)學(xué)習(xí)中重用新概念281
15.5 迭代學(xué)習(xí)281
15.6 學(xué)習(xí)解決共生任務(wù)283
參考文獻(xiàn)284
第三部分 組織和利用元數(shù)據(jù)
第16章 元數(shù)據(jù)儲(chǔ)存庫289
16.1 簡(jiǎn)介289
16.2 整理世界機(jī)器學(xué)習(xí)信息289
16.2.1 對(duì)更好的元數(shù)據(jù)的需求289
16.2.2 工具和方案290
16.3 OpenML291
16.3.1 數(shù)據(jù)集291
16.3.2 任務(wù)類型292
16.3.3 任務(wù)292
16.3.4 流程293
16.3.5 設(shè)置294
16.3.6 運(yùn)行294
16.3.7 研究和基準(zhǔn)測(cè)試套件296
16.3.8 在機(jī)器學(xué)習(xí)環(huán)境中集成OpenML296
參考文獻(xiàn)299
第17章 學(xué)習(xí)儲(chǔ)存庫中的元數(shù)據(jù)302
17.1 簡(jiǎn)介302
17.2 每數(shù)據(jù)集的算法性能分析302
17.2.1 對(duì)比不同的算法303
17.2.2 更改一些超參數(shù)設(shè)置的影響304
17.3 跨數(shù)據(jù)集的算法性能分析305
17.3.1 使用不同分類器的默認(rèn)超參數(shù)的影響305
17.3.2 超參數(shù)優(yōu)化的影響307
17.3.3 識(shí)別具有相似預(yù)測(cè)的算法(工作流)309
17.4 特定數(shù)據(jù)/工作流特征對(duì)性能的影響310
17.4.1 選擇線性和非線性模型的影響310
17.4.2 采用特征選擇的影響311
17.4.3 特定超參數(shù)設(shè)置的影響312
17.5 總結(jié)315
參考文獻(xiàn)316
第18章 結(jié)束語318
18.1 簡(jiǎn)介318
18.2 不同方法中使用的元知識(shí)形式318
18.2.1 算法選擇方法中的元知識(shí)319
18.2.2 超參數(shù)優(yōu)化方法中的元知識(shí)320
18.2.3 工作流設(shè)計(jì)中的元知識(shí)320
18.2.4 遷移學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)中的元知識(shí)320
18.3 未來挑戰(zhàn)321
18.3.1 設(shè)計(jì)與數(shù)據(jù)集特征和性能相關(guān)的元特征321
18.3.2 元學(xué)習(xí)與AutoML方法的進(jìn)一步集成321
18.3.3 自動(dòng)化適應(yīng)當(dāng)前任務(wù)321
18.3.4 自動(dòng)化減少構(gòu)形空間322
18.3.5 數(shù)據(jù)流挖掘自動(dòng)化322
18.3.6 神經(jīng)網(wǎng)絡(luò)參數(shù)配置自動(dòng)化323
18.3.7 數(shù)據(jù)科學(xué)自動(dòng)化323
18.3.8 具有更復(fù)雜結(jié)構(gòu)解決方案的設(shè)計(jì)自動(dòng)化324
18.3.9 設(shè)計(jì)元學(xué)習(xí)/AutoML平臺(tái)325
參考文獻(xiàn)325
彩圖