算力珠璣:鯤鵬昇騰應(yīng)用開發(fā)案例詳解
定 價(jià):89.9 元
當(dāng)前圖書已被 1 所學(xué)校薦購過!
查看明細(xì)
- 作者:林新華 王一超 管海兵
- 出版時(shí)間:2025/10/1
- ISBN:9787115682062
- 出 版 社:人民郵電出版社
- 中圖法分類:TP301.6
- 頁碼:234
- 紙張:
- 版次:01
- 開本:小16開
本書聚焦于鯤鵬與昇騰計(jì)算生態(tài),旨在通過通用計(jì)算(科學(xué)計(jì)算、工程計(jì)算)及人工智能計(jì)算領(lǐng)域的10個(gè)應(yīng)用案例,介紹基于鯤鵬平臺(tái)和昇騰平臺(tái)進(jìn)行應(yīng)用開發(fā),以及如何將現(xiàn)有的計(jì)算應(yīng)用向鯤鵬平臺(tái)和昇騰平臺(tái)進(jìn)行代碼移植和優(yōu)化。書中案例涵蓋鯤鵬遷移工具(如畢昇編譯器)、昇騰AI框架(如CANN和MindSpore),強(qiáng)調(diào)應(yīng)用性能優(yōu)化實(shí)踐。
本書包括“鯤鵬篇”和“昇騰篇”兩個(gè)部分,其中“鯤鵬篇”包含5章,覆蓋通用計(jì)算的5個(gè)應(yīng)用案例(如分子動(dòng)力學(xué)模擬等);“昇騰篇”包含5章,介紹人工智能計(jì)算領(lǐng)域的5個(gè)應(yīng)用案例(如模型訓(xùn)練與模型推理等)。每章對應(yīng)一個(gè)應(yīng)用案例,每個(gè)應(yīng)用案例包含應(yīng)用背景、核心算法、代碼移植方法及性能優(yōu)化策略等內(nèi)容,呈現(xiàn)應(yīng)用開發(fā)和遷移的實(shí)踐。
本書適合鯤鵬與昇騰開發(fā)者、高性能計(jì)算工程師、計(jì)算機(jī)相關(guān)專業(yè)的學(xué)生及教師閱讀。
(1)聚焦鯤鵬昇騰生態(tài):圍繞“鯤鵬昇騰科教創(chuàng)新卓越中心”,對科學(xué)計(jì)算、工程計(jì)算及人工智能計(jì)算領(lǐng)域的 10 大案例應(yīng)用進(jìn)行深度解析,體現(xiàn)了書籍在鯤鵬昇騰技術(shù)生態(tài)下的實(shí)踐深度,為讀者提供多領(lǐng)域的實(shí)際應(yīng)用參考。
(2)從移植到優(yōu)化實(shí)戰(zhàn):詳細(xì)講解核心算法、代碼遷移及性能提升的實(shí)戰(zhàn)過程,覆蓋技術(shù)落地的關(guān)鍵環(huán)節(jié),助力讀者從技術(shù)遷移到性能優(yōu)化全流程掌握實(shí)戰(zhàn)能力。
(3)適配多元讀者:明確面向高校師生、科研人員、高性能計(jì)算工程師、IT 從業(yè)者等群體,精準(zhǔn)定位受眾,便于不同領(lǐng)域的讀者判斷其參考價(jià)值。
林新華,上海交通大學(xué)網(wǎng)絡(luò)信息中心副主任、計(jì)算機(jī)學(xué)院博士生導(dǎo)師,全球計(jì)算聯(lián)盟(GCC)高性能計(jì)算產(chǎn)業(yè)發(fā)展委員會(huì)主任、上海高專委主任、CCF 高專委常委。主要研究方向?yàn)楦咝阅苡?jì)算與 AI4S。
王一超,上海交通大學(xué)網(wǎng)絡(luò)信息中心計(jì)算業(yè)務(wù)部副主任、高級(jí)工程師,分別于 2019 年和 2022 年入選上海交通大學(xué)卓越計(jì)劃。
管海兵,上海交通大學(xué)副校長、教授。長期從事并行與分布式計(jì)算領(lǐng)域的教學(xué)和科研工作,曾獲國家杰出青年科學(xué)基金、教育部 “長江學(xué)者獎(jiǎng)勵(lì)計(jì)劃” 特聘教授、國家萬人計(jì)劃科技創(chuàng)新領(lǐng)軍人才等國家級(jí)人才計(jì)劃。
第 一部分 鯤鵬篇
第 1章 隨機(jī)分批Ewald算法結(jié)合LAMMPS在鯤鵬處理器上的高性能實(shí)現(xiàn) 3
1.1 應(yīng)用簡介:LAMMPS-RBE 3
1.2 研發(fā)團(tuán)隊(duì)簡介:上海交通大學(xué)快速算法與高性能計(jì)算實(shí)驗(yàn)室 5
1.3 分子模擬理論與算法設(shè)計(jì) 6
1.4 軟件編譯技巧 9
1.5 進(jìn)程級(jí)并行:MPI并行編程 10
1.6 數(shù)據(jù)級(jí)并行:NEON向量化 13
1.7 實(shí)空間優(yōu)化方法 16
1.8 計(jì)算結(jié)果與計(jì)算效率 19
1.9 總結(jié) 22
參考文獻(xiàn) 23
第 2章 多體構(gòu)型氣動(dòng)仿真軟件在鯤鵬處理器上的高性能實(shí)現(xiàn) 25
2.1 應(yīng)用簡介:SuperMan多體構(gòu)型仿真軟件 25
2.2 多體構(gòu)型氣動(dòng)仿真算法設(shè)計(jì) 28
2.3 軟件編譯步驟 30
2.4 面向鯤鵬平臺(tái)的優(yōu)化 31
2.4.1 遷移至鯤鵬平臺(tái) 31
2.4.2 編譯選項(xiàng)優(yōu)化 32
2.4.3 單節(jié)點(diǎn)內(nèi)優(yōu)化 33
2.4.4 負(fù)載均衡優(yōu)化 39
2.5 應(yīng)用案例 40
2.6 總結(jié) 43
參考文獻(xiàn) 43
第3章 PPCG和CheFSI本征值求解器在鯤鵬處理器上面向第 一性原理計(jì)算軟件的
高性能實(shí)現(xiàn) 46
3.1 應(yīng)用簡介:PPCG和CheFSI本征值特征求解器 46
3.1.1 基于DFT的第 一性原理計(jì)算 46
3.1.2 Quantum ESPRESSO-PPCG和CP2K-CheFSI 48
3.2 研發(fā)團(tuán)隊(duì)簡介:中國科學(xué)技術(shù)大學(xué)楊金龍?jiān)菏空n題組 50
3.3 算法簡介 50
3.3.1 PPCG算法 50
3.3.2 CheFSI算法 54
3.4 本征值求解器中的模塊化并行設(shè)計(jì) 58
3.5 并行移植 63
3.5.1 編譯方法與優(yōu)化策略 63
3.5.2 PPCG與Quantum ESPRESSO的對接 64
3.5.3 CheFSI與CP2K的對接 66
3.6 計(jì)算結(jié)果與計(jì)算效率 67
3.6.1 PPCG對角化庫 68
3.6.2 CheFSI對角化庫 69
3.7 總結(jié) 71
參考文獻(xiàn) 71
第4章 RELION在鯤鵬處理器上的高性能實(shí)現(xiàn)和算法優(yōu)化 73
4.1 應(yīng)用簡介:RELION 73
4.2 算法介紹 74
4.3 軟件編譯 75
4.3.1 加載環(huán)境 75
4.3.2 應(yīng)用編譯 75
4.4 應(yīng)用算例 76
4.4.1 算例介紹 76
4.4.2 性能分析 77
4.5 優(yōu)化方法 78
4.5.1 進(jìn)程并行優(yōu)化 78
4.5.2 熱點(diǎn)多線程使能 79
4.5.3 熱點(diǎn)訪存優(yōu)化 79
4.5.4 應(yīng)用計(jì)算優(yōu)化 80
4.5.5 通信優(yōu)化 81
4.6 實(shí)機(jī)優(yōu)化效果 81
4.6.1 性能對比 81
4.6.2 結(jié)果精度對比 82
4.7 總結(jié) 83
參考文獻(xiàn) 83
第5章 NEMO在鯤鵬處理器上的高性能實(shí)現(xiàn)和算法優(yōu)化 84
5.1 應(yīng)用簡介:NEMO 84
5.2 算法簡介 85
5.3 軟件編譯運(yùn)行 86
5.3.1 安裝依賴庫 86
5.3.2 軟件目錄結(jié)構(gòu) 86
5.3.3 配置編譯選項(xiàng) 86
5.3.4 編譯選項(xiàng)優(yōu)化 87
5.3.5 設(shè)置算例 87
5.3.6 編譯NEMO 87
5.3.7 運(yùn)行NEMO 87
5.4 性能優(yōu)化 87
5.4.1 NEMO初始性能分析 87
5.4.2 線程級(jí)并行 88
5.4.3 數(shù)據(jù)級(jí)并行 90
5.4.4 訪存優(yōu)化 91
5.4.5 去除冗余計(jì)算 93
5.4.6 混合精度 94
5.5 實(shí)機(jī)優(yōu)化效果 94
5.5.1 測試平臺(tái) 94
5.5.2 算例及運(yùn)行結(jié)果 94
5.6 總結(jié) 95
參考文獻(xiàn) 96
第二部分 昇騰篇
第6章 面向聯(lián)合故障診斷的集群聯(lián)邦學(xué)習(xí)框架在昇騰處理器上的遷移與優(yōu)化 99
6.1 應(yīng)用簡介:數(shù)據(jù)隱私約束下的多風(fēng)場風(fēng)機(jī)聯(lián)合故障診斷 99
6.2 研發(fā)團(tuán)隊(duì)簡介:上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院李艷婷教授
課題組 102
6.3 CFL框架設(shè)計(jì) 102
6.3.1 輕量級(jí)多尺度可分離殘差網(wǎng)絡(luò) 103
6.3.2 CFL流程 104
6.4 模型遷移技巧 107
6.4.1 模型基本情況 108
6.4.2 遷移可行性分析 109
6.4.3 模型遷移適配 110
6.5 性能精度調(diào)試 112
6.5.1 訓(xùn)練精度調(diào)試 112
6.5.2 通用性能調(diào)優(yōu) 113
6.5.3 訓(xùn)練數(shù)據(jù)采集 113
6.5.4 定制性能調(diào)優(yōu) 115
6.6 實(shí)例驗(yàn)證 116
6.6.1 LMSRN模型的診斷性能評估 117
6.6.2 CFL框架的聯(lián)合診斷性能評估 119
6.7 總結(jié) 122
參考文獻(xiàn) 123
第7章 Open-Sora Plan視頻生成大模型在昇騰處理器上的高性能實(shí)現(xiàn) 126
7.1 應(yīng)用簡介:Open-Sora Plan 126
7.2 研發(fā)團(tuán)隊(duì)簡介:北京大學(xué)深圳研究生院-兔展智能聯(lián)合實(shí)驗(yàn)室 128
7.3 視頻生成模型與訓(xùn)練策略 129
7.3.1 去噪器結(jié)構(gòu) 129
7.3.2 多數(shù)據(jù)桶訓(xùn)練 132
7.3.3 自適應(yīng)梯度裁剪 133
7.3.4 數(shù)據(jù)篩選 134
7.4 模型訓(xùn)練與推理部署 136
7.4.1 環(huán)境準(zhǔn)備 136
7.4.2 權(quán)重下載及轉(zhuǎn)換 137
7.4.3 數(shù)據(jù)集準(zhǔn)備和處理 138
7.4.4 并行策略 138
7.4.5 開啟并行策略下的模型預(yù)訓(xùn)練 140
7.4.6 推理 142
7.5 模型移植結(jié)果 142
7.5.1 整體適配架構(gòu) 142
7.5.2 基于昇騰平臺(tái)和Mindspeed-MM框架軟硬件的調(diào)優(yōu)結(jié)果 143
7.5.3 視頻生成結(jié)果示例 144
7.6 總結(jié) 145
參考文獻(xiàn) 145
第8章 基于昇騰處理器的小鼠全腦神經(jīng)元重建平臺(tái) 147
8.1 應(yīng)用簡介:小鼠全腦神經(jīng)元重建平臺(tái) 147
8.2 研發(fā)團(tuán)隊(duì)簡介:浙江大學(xué)求是高等研究院鄭能干教授課題組 150
8.3 TB級(jí)全腦神經(jīng)元圖像重建 151
8.3.1 全腦圖像數(shù)據(jù)介紹 151
8.3.2 全腦圖像數(shù)據(jù)預(yù)處理 151
8.3.3 神經(jīng)元重建算法庫 154
8.3.4 全腦圖像計(jì)算服務(wù)平臺(tái) 155
8.4 全腦TB級(jí)的大規(guī)模圖像并行處理 157
8.5 昇思模型訓(xùn)練策略 160
8.5.1 基于靜態(tài)圖模式的訓(xùn)練與推理 160
8.5.2 高并行數(shù)據(jù)管道構(gòu)建 162
8.5.3 神經(jīng)元三維重建模型的完整訓(xùn)練流程 164
8.6 全腦重建結(jié)果的效果展示 165
8.6.1 平臺(tái)各功能界面展示 166
8.6.2 全腦重建結(jié)果去噪 167
8.6.3 多類方法的重建結(jié)果分析與展示 169
8.7 總結(jié) 171
參考文獻(xiàn) 172
第9章 船臉識(shí)別不規(guī)則表達(dá)式計(jì)算場景在昇騰NPU上的高性能實(shí)現(xiàn) 174
9.1 應(yīng)用簡介:船臉識(shí)別 174
9.2 研發(fā)團(tuán)隊(duì)簡介:華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院陸璐團(tuán)隊(duì) 178
9.3 模型關(guān)鍵算子實(shí)現(xiàn) 178
9.3.1 BatchNorm2d算子的設(shè)計(jì)與優(yōu)化 178
9.3.2 select算子的設(shè)計(jì)與優(yōu)化 180
9.3.3 SiLU算子的設(shè)計(jì)與優(yōu)化 181
9.3.4 MaxPool2d算子的設(shè)計(jì)與優(yōu)化 181
9.3.5 Upsample算子的設(shè)計(jì)與優(yōu)化 183
9.3.6 clip_by_value算子的設(shè)計(jì)與優(yōu)化 185
9.4 自定義算子替換與性能結(jié)果分析 186
9.4.1 替換開關(guān) 187
9.4.2 核心算子替換實(shí)現(xiàn) 187
9.4.3 計(jì)算結(jié)果與計(jì)算效率 189
9.5 總結(jié) 194
參考文獻(xiàn) 195
第 10章 在鯤鵬-昇騰平臺(tái)上面向稀疏模型的本地CPU/NPU異構(gòu)推理加速 197
10.1 應(yīng)用簡介 197
10.2 研發(fā)團(tuán)隊(duì)簡介:清華大學(xué)MadSys課題組 200
10.3 CPU/NPU異構(gòu)并行算法設(shè)計(jì) 201
10.4 基于鯤鵬CPU的優(yōu)化方法 206
10.4.1 總體思路:MoE卸載與NUMA感知并行 206
10.4.2 NUMA本地加載和張量并行切分 206
10.4.3 線程池與任務(wù)調(diào)度 209
10.4.4 矩陣乘內(nèi)核優(yōu)化 214
10.4.5 性能小結(jié) 219
10.5 基于昇騰NPU的優(yōu)化方法 220
10.5.1 總體思路:W8A8量化、算子融合與圖下沉 220
10.5.2 量化與算子融合 221
10.5.3 圖下沉技術(shù) 222
10.5.4 IFA-Attention的異步圖更新 226
10.6 性能評測與分析 229
10.6.1 實(shí)驗(yàn)環(huán)境與測試流程 229
10.6.2 端到端性能測試 230
10.6.3 昇騰NPU微觀性能剖析 231
10.7 總結(jié) 232
參考文獻(xiàn) 233