本書深入剖析DeepSeek的核心技術(shù),介紹了提示詞的原理與高級(jí)應(yīng)用,對(duì)DeepSeek的模型架構(gòu)、訓(xùn)練框架,以及MoE優(yōu)化、MLA、思維鏈、GRPO算法、獎(jiǎng)勵(lì)模型等技術(shù)細(xì)節(jié)進(jìn)行了探討。此外,本書對(duì)DeepSeek給人工智能行業(yè)格局帶來的影響及DeepSeek的開源貢獻(xiàn)進(jìn)行了分析,對(duì)大模型的未來趨勢(shì)進(jìn)行了展望,并介紹了DeepSeek在開源方面做出的貢獻(xiàn)。
本書適合人工智能研究人員、開發(fā)人員及大模型相關(guān)技術(shù)愛好者閱讀,也為關(guān)注人工智能領(lǐng)域技術(shù)發(fā)展的從業(yè)人員提供了參考與借鑒。
由一線資深技術(shù)人員編寫,知識(shí)點(diǎn)講解清晰。內(nèi)容完全圍繞DeepSeek核心技術(shù)展開,提煉精華。深入討論DeepSeek的開源貢獻(xiàn),并通過LLaMA 4的技術(shù)優(yōu)化對(duì)大模型的未來進(jìn)行了展望。
寫作目的
2025年年初,DeepSeek成為全球人工智能(AI)領(lǐng)域的焦點(diǎn),其DeepSeek-V3和DeepSeek-R1版本在行業(yè)內(nèi)引發(fā)了結(jié)構(gòu)性震動(dòng)。
本書是剖析DeepSeek技術(shù)原理的專業(yè)技術(shù)書,以全面的內(nèi)容、深入的技術(shù)原理解析和前瞻性的行業(yè)洞察,為技術(shù)人員、研究人員和大模型相關(guān)技術(shù)愛好者提供了寶貴的學(xué)習(xí)資料,也為關(guān)注人工智能領(lǐng)域技術(shù)發(fā)展的從業(yè)人員提供了重要的參考與借鑒。通過閱讀這本書,讀者可以深入了解DeepSeek的技術(shù)細(xì)節(jié),快速掌握大模型領(lǐng)域的前沿知識(shí),洞察其對(duì)行業(yè)格局的影響,從而更好地把握人工智能發(fā)展的脈絡(luò),提升自身在該領(lǐng)域的專業(yè)素養(yǎng)和競(jìng)爭(zhēng)力,為未來的職業(yè)發(fā)展和個(gè)人成長(zhǎng)奠定堅(jiān)實(shí)的基礎(chǔ)。
本書架構(gòu)
第1章介紹DeepSeek的一系列技術(shù)突破與創(chuàng)新,如架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化、推理與部署優(yōu)化等,讓讀者對(duì)DeepSeek的性能突破形成直觀的認(rèn)識(shí)。同時(shí),介紹DeepSeek的模型家族,涵蓋通用語言模型、多模態(tài)模型、代碼生成與理解等領(lǐng)域,展現(xiàn)了DeepSeek在大模型的不同細(xì)分領(lǐng)域取得的成就。
第2章為初學(xué)者深入淺出地講解DeepSeek的使用方法。從推理模型與通用模型的差異,到具體的使用案例,讀者可以直觀地感受DeepSeek在實(shí)際應(yīng)用中的強(qiáng)大功能。對(duì)提示工程的詳細(xì)介紹,可以幫助讀者了解如何通過精心設(shè)計(jì)的提示詞更好地發(fā)揮DeepSeek的能力。對(duì)提示詞鏈的高級(jí)使用技巧的介紹,為讀者進(jìn)一步提升DeepSeek使用效果提供參考。
第3章和第4章是本書的核心與精華。
第3章深入剖析DeepSeek-V3的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。從混合專家模型(MoE)的起源與發(fā)展,到DeepSeek-V3的MoE優(yōu)化,再到對(duì)多頭潛在注意力(MLA)機(jī)制和多token預(yù)測(cè)的詳細(xì)解讀,幫助讀者全面了解DeepSeek-V3在技術(shù)上的先進(jìn)性和創(chuàng)新性。同時(shí),對(duì)訓(xùn)練框架的并行策略、FP8混合精度訓(xùn)練及推理階段的優(yōu)化等內(nèi)容的深入分析,展示了DeepSeek在提升效率和性能方面的不懈追求。
第4章關(guān)于DeepSeek-R1的技術(shù)剖析同樣精彩紛呈。預(yù)備知識(shí)的介紹為讀者理解后續(xù)內(nèi)容打下了堅(jiān)實(shí)的基礎(chǔ)。對(duì)DeepSeek-R1-Zero的組相對(duì)策略優(yōu)化(GRPO)算法、獎(jiǎng)勵(lì)模型等關(guān)鍵技術(shù)的深入剖析,可以幫助讀者了解DeepSeek在強(qiáng)化學(xué)習(xí)領(lǐng)域的創(chuàng)新性探索。對(duì)DeepSeek-R1的訓(xùn)練過程和推理能力的蒸餾等內(nèi)容的詳細(xì)闡述,能讓讀者對(duì)這一創(chuàng)新技術(shù)的特點(diǎn)有全面的認(rèn)知。
第5章從宏觀的角度分析DeepSeek對(duì)人工智能技術(shù)格局的影響,包括打破硬件依賴迷思、沖擊英偉達(dá)CUDA護(hù)城河、引發(fā)大模型技術(shù)路線的重新思考等多個(gè)方面。同時(shí),總結(jié)了DeepSeek成功背后的啟示,如領(lǐng)導(dǎo)者敏銳的技術(shù)直覺、長(zhǎng)期主義的堅(jiān)持、極致的工程優(yōu)化等,為讀者提供了寶貴的經(jīng)驗(yàn)和啟示。
第6章對(duì)DeepSeek開源周的多個(gè)技術(shù)項(xiàng)目進(jìn)行了深入的分析。通過對(duì)FlashMLA、DeepEP、DeepGEMM、DualPipe 與 EPLB、3FS等項(xiàng)目的介紹,展示了DeepSeek在開源領(lǐng)域的積極探索,體現(xiàn)了其推動(dòng)大模型技術(shù)普及和發(fā)展的決心。這些技術(shù)項(xiàng)目的詳細(xì)解讀,能讓讀者了解DeepSeek在降低人工智能技術(shù)門檻、促進(jìn)技術(shù)交流與合作方面的巨大貢獻(xiàn)。
第7章對(duì)大模型的發(fā)展進(jìn)行了討論。從MoE的發(fā)展趨勢(shì)、MLA的展望,大模型的訓(xùn)練方法、推理部署,到GPU硬件及推理模型的發(fā)展趨勢(shì),以前瞻性的視角為讀者描繪了大模型的發(fā)展藍(lán)圖。
本書將帶領(lǐng)讀者走進(jìn)DeepSeek的神秘世界,領(lǐng)略大模型技術(shù)的魅力,開啟一段探索人工智能未來的奇妙旅程。無論您是對(duì)大模型技術(shù)感興趣的初學(xué)者,還是在該領(lǐng)域深耕多年的專業(yè)人士,本書都值得一讀。它將幫助您更好地把握人工智能技術(shù)的發(fā)展趨勢(shì),提升自身的技術(shù)水平和創(chuàng)新能力,為您在人工智能領(lǐng)域的發(fā)展提供有力的支持。
致謝
感謝劉嘉浪(碩士,國(guó)防科技大學(xué))、詹佳磊(博士,國(guó)防科技大學(xué))和謝宇航(碩士,西安電子科技大學(xué))為本書寫作提供的幫助。
本書成書較為倉(cāng)促,如有不足之處,還請(qǐng)讀者批評(píng)指正。
盧菁 北京科技大學(xué)博士,北京大學(xué)博士后,B站、視頻號(hào)優(yōu)秀科技博主。曾任職于騰訊、愛奇藝等知名互聯(lián)網(wǎng)公司,前騰訊AI內(nèi)訓(xùn)講師,主要從事人工智能技術(shù)的應(yīng)用和研發(fā)工作,主要研究方向?yàn)榇竽P、多模態(tài)、自然語言處理、知識(shí)圖譜、推薦系統(tǒng)等。著有《速通機(jī)器學(xué)習(xí)》《速通深度學(xué)習(xí)數(shù)學(xué)基礎(chǔ)》。
戴志仕 資深A(yù)I架構(gòu)師,寒武紀(jì)人工智能公眾號(hào)的創(chuàng)立者。2024年CCF國(guó)際AIOps挑戰(zhàn)賽優(yōu)秀獎(jiǎng)獲得者。擁有十余年人工智能算法研究和產(chǎn)業(yè)落地經(jīng)驗(yàn),成功實(shí)施過多個(gè)人工智能項(xiàng)目。
第 1 章 技驚四座的 DeepSeek / 1
1.1 石破天驚的產(chǎn)品發(fā)布 / 1
1.2 DeepSeek-V3 和 DeepSeek-R1 可以做什么 / 4
1.3 DeepSeek-V3 的技術(shù)突破與創(chuàng)新 / 7
1.3.1 架構(gòu)創(chuàng)新 / 8
1.3.2 訓(xùn)練優(yōu)化 / 9
1.3.3 推理與部署優(yōu)化 / 10
1.3.4 效果的全面提升 / 10
1.4 DeepSeek-R 系列的技術(shù)突破與創(chuàng)新 / 10
1.4.1 DeepSeek-R1-Zero 的技術(shù)突破與創(chuàng)新 / 11
1.4.2 DeepSeek-R1 的技術(shù)突破與創(chuàng)新 / 12
1.4.3 推理能力的提升 / 12
1.5 DeepSeek 發(fā)布的模型家族 / 14
1.5.1 通用語言大模型 / 16
1.5.2 多模態(tài)大模型 / 17
1.5.3 代碼大模型 / 18
1.5.4 數(shù)學(xué)推理大模型 / 18
1.5.5 混合專家模型 / 19
1.5.6 MoE 專用微調(diào)模型 / 19
1.5.7 基于 LLaMA 架構(gòu)的模型 / 20
第 2 章 提示詞的原理與應(yīng)用 / 21
2.1 推理模型與通用模型 / 21
2.2 提示工程 / 29
2.2.1 提示詞的類型 / 30
2.2.2 提示詞的基本元素 / 33
2.2.3 有效的提示詞 / 37
2.2.4 正確地表達(dá)需求 / 38
2.3 提示詞高級(jí)技巧:提示詞鏈 / 39
2.3.1 提示詞鏈的設(shè)計(jì)過程 / 39
2.3.2 提示詞鏈的應(yīng)用案例 / 40
第3章 DeepSeek-V3 技術(shù)剖析 / 43
3.1 DeepSeek 的模型架構(gòu) / 43
3.1.1 MoE 的起源與發(fā)展 / 44
3.1.2 DeepSeek-V3 的 MoE 優(yōu)化 / 50
3.1.3 DeepSeek-V3 的 MoE 架構(gòu)的優(yōu)勢(shì) / 54
3.1.4 DeepSeek-V3 的 MLA / 54
3.1.5 DeepSeek-V3 的 MTP / 59
3.2 DeepSeek 的訓(xùn)練框架 / 62
3.2.1 常見的并行策略 / 62
3.2.2 DeepSeek 的并行策略 / 67
3.2.3 DeepSeek 的 FP8 混合精度訓(xùn)練 / 73
3.3 DeepSeek 的推理階段優(yōu)化 / 77
3.3.1 PD 分離架構(gòu) / 77
3.3.2 DeepSeek 的預(yù)填充階段優(yōu)化 / 78
3.3.3 DeepSeek 的解碼階段優(yōu)化 / 78
3.4 DeepSeek 的后訓(xùn)練優(yōu)化 / 79
3.5 小結(jié) / 80
第 4 章 DeepSeek-R1 技術(shù)剖析 / 81
4.1 預(yù)備知識(shí) / 81
4.1.1 思維鏈 / 81
4.1.2 有監(jiān)督微調(diào) / 82
4.1.3 強(qiáng)化學(xué)習(xí) / 83
4.2 DeepSeek 對(duì)訓(xùn)練推理模型的探索 / 88
4.3 DeepSeek-R1-Zero 的訓(xùn)練 / 88
4.3.1 GRPO 算法 / 91
4.3.2 獎(jiǎng)勵(lì)模型 / 94
4.4 DeepSeek-R1 的訓(xùn)練 / 95
4.4.1 階段一訓(xùn)練 / 96
4.4.2 階段二訓(xùn)練 / 97
4.4.3 推理能力的蒸餾 / 99
4.5 小結(jié) / 100
第5章 DeepSeek 的影響與成功啟示 / 103
5.1 DeepSeek 對(duì) AI 格局的影響 / 103
5.1.1 打破硬件依賴的迷思 / 103
5.1.2 對(duì)英偉達(dá) CUDA 護(hù)城河的沖擊 / 104
5.1.3 對(duì)大模型技術(shù)路線的重新思考 / 104
5.1.4 投資風(fēng)向的改變 / 105
5.1.5 對(duì)商業(yè)模式的沖擊 / 105
5.1.6 對(duì)創(chuàng)新文化的沖擊 / 106
5.1.7 對(duì)地緣政治的沖擊 / 106
5.2 DeepSeek 的成功啟示 / 106
5.2.1 領(lǐng)導(dǎo)者的技術(shù)直覺 / 107
5.2.2 長(zhǎng)期主義 / 107
5.2.3 極致的工程優(yōu)化 / 107
5.2.4 對(duì)資源的高效利用 / 108
5.2.5 團(tuán)隊(duì)的創(chuàng)新文化 / 108
第 6 章 DeepSeek 開源技術(shù)剖析 / 109
6.1 DeepSeek 的開源周 / 109
6.2 FlashMLA:減少顯存消耗 / 110
6.2.1 項(xiàng)目特點(diǎn) / 111
6.2.2 應(yīng)用場(chǎng)景 / 112
6.2.3 技術(shù)剖析 / 113
6.2.4 影響與展望 / 114
6.3 DeepEP:通信系統(tǒng)的優(yōu)化 / 115
6.3.1 項(xiàng)目特點(diǎn) / 115
6.3.2 應(yīng)用場(chǎng)景 / 116
6.3.3 技術(shù)剖析 / 117
6.3.4 影響與展望 / 119
6.4 DeepGEMM:讓矩陣乘法起飛 / 120
6.4.1 項(xiàng)目特點(diǎn) / 121
6.4.2 應(yīng)用場(chǎng)景 / 123
6.4.3 技術(shù)剖析 / 124
6.4.4 影響與展望 / 126
6.5 DualPipe 與 EPLB:集群并行計(jì)算優(yōu)化 / 127
6.5.1 項(xiàng)目特點(diǎn) / 128
6.5.2 技術(shù)剖析 / 130
6.5.3 影響與展望 / 133
6.6 3FS:為 AI 加速 / 134
6.6.1 項(xiàng)目特點(diǎn) / 134
6.6.2 應(yīng)用場(chǎng)景 / 136
6.6.3 技術(shù)剖析 / 137
6.6.4 影響與展望 / 139
第 7 章 大模型未來發(fā)展展望 / 143
7.1 MoE 的未來 / 143
7.1.1 專家數(shù)量與規(guī)模的優(yōu)化 / 143
7.1.2 MoE 分布式訓(xùn)練工具進(jìn)一步完善 / 143
7.1.3 門控算法的改進(jìn) / 144
7.1.4 跨領(lǐng)域應(yīng)用與融合 / 144
7.2 MLA 的未來 / 144
7.3 大模型訓(xùn)練方法的發(fā)展趨勢(shì) / 145
7.3.1 三階段訓(xùn)練法的普及 / 145
7.3.2 混合精度訓(xùn)練的推廣 / 145
7.3.3 并行策略的優(yōu)化 / 145
7.4 推理部署的發(fā)展趨勢(shì) / 146
7.4.1 PD 分離模式的普及 / 146
7.4.2 集群化推理的優(yōu)化與推理加速技術(shù)研究 / 146
7.5 GPU 硬件的未來發(fā)展 / 146
7.5.1 軟硬件協(xié)同升級(jí) / 146
7.5.2 存儲(chǔ)與通信能力的優(yōu)化 / 147
7.5.3 低精度計(jì)算的支持 / 147
7.5.4 異構(gòu)計(jì)算的支持 / 147
7.6 從 LLaMA 4 看推理模型的發(fā)展 / 148
7.6.1 LLaMA 4 簡(jiǎn)介 / 148
7.6.2 LLaMA 4 的核心技術(shù)細(xì)節(jié) / 150