大模型驅(qū)動的具身智能:架構(gòu)、設(shè)計與實現(xiàn) 程戈
定 價:89 元
大模型賦能,重新定義智能機器人的未來。本書是一部講解如何用大模型驅(qū)動具身智能的權(quán)威指南,系統(tǒng)揭示了從底層架構(gòu)到實戰(zhàn)部署的完整技術(shù)路徑。作者團隊融合多年一線研發(fā)經(jīng)驗,深入講解如何在多模態(tài)環(huán)境中,實現(xiàn)智能機器人的任務(wù)理解、動作控制、記憶建構(gòu)與仿真協(xié)同。本書不僅提供扎實的理論基礎(chǔ),更通過豐富的行業(yè)案例與系統(tǒng)性的方法論,幫助讀者構(gòu)建面向未來的具身智能系統(tǒng)。通過閱讀本書,你將獲得:(1)全面理解大模型如何賦能具身智能。揭示大型語言模型在感知-決策-執(zhí)行鏈條中的核心作用,理清從感知到行為的智能演化路徑。(2)掌握任務(wù)規(guī)劃與動作控制核心技術(shù)。深度解析任務(wù)分解、動作生成、空間約束與控制策略,覆蓋從高層意圖到低層執(zhí)行的全鏈路建模方法。(3)構(gòu)建具身智能的記憶與反思機制。學(xué)習(xí)如何實現(xiàn)任務(wù)記憶、動態(tài)規(guī)劃與自我優(yōu)化機制,提升機器人在復(fù)雜環(huán)境中的自適應(yīng)能力。(4)搭建可復(fù)用的開發(fā)與仿真框架。熟練運用 ROS、MoveIt、Gazebo 等核心中間件與仿真平臺,助力系統(tǒng)開發(fā)與快速迭代。無論你是正在開發(fā)具身智能系統(tǒng)的工程師;投身人工智能前沿的科研人員;關(guān)注智能機器人產(chǎn)業(yè)落地的技術(shù)管理者或產(chǎn)品決策者;本書都將成為你不可或缺的參考讀物,引領(lǐng)你從理念到落地,真正掌握大模型時代的具身智能開發(fā)的核心技術(shù),讓你在這場技術(shù)革新中把握先機。
(1)權(quán)威背書,實力保障作者系湖南國家應(yīng)用數(shù)學(xué)中心副主任、湘潭大學(xué)博士生導(dǎo)師,科技部國家重點子課題(大模型相關(guān))的負責(zé)人 ,長期深耕AI與機器人前沿,是業(yè)界公認的具身智能專家。(2)實戰(zhàn)豐富,產(chǎn)業(yè)導(dǎo)向主導(dǎo)多個具身智能項目從原型到落地,深入企業(yè)應(yīng)用場景,積累了大量工程實操經(jīng)驗,本書凝練了其技術(shù)落地的核心方法論。(3)技術(shù)全面,系統(tǒng)透徹從大模型能力剖析,到多模態(tài)感知、任務(wù)規(guī)劃、動作控制、架構(gòu)設(shè)計與部署實現(xiàn),全方位講解具身智能系統(tǒng)的核心技術(shù)鏈條。(4)案例詳實,貼近實戰(zhàn)深度解析特斯拉FSD、松靈機器人等行業(yè)級案例,配套ROS控制、仿真系統(tǒng)、動作規(guī)劃等實操細節(jié),既可學(xué)習(xí)框架,也可直接落地。
前言本書寫作目的大模型驅(qū)動的具身智能正以前所未有的速度推動社會變革,并帶來了深遠的影響。大模型的崛起不僅吸引了全球資本的關(guān)注,也為智能機器人技術(shù)的未來注入了無限可能。具身智能伴隨大模型技術(shù)的進步加速發(fā)展,它所帶來的變革將不亞于工業(yè)革命。然而,這次變革帶來的影響不限于技術(shù)層面,還深刻觸及社會的各個方面。在具身智能的廣闊發(fā)展前景下,人類的職業(yè)、生活方式乃至社會關(guān)系和制度都可能被重新定義。例如,埃隆·馬斯克在一次采訪中被問到,在AI和機器人逐步取代許多工作的趨勢下,他會給自己的孩子們什么職業(yè)建議。他的回答是鼓勵孩子們遵循內(nèi)心,去追求他們真正感興趣和能獲得成就感的事業(yè),并盡可能對社會有用。這看似簡單的回答,實則暗含深意,反映出馬斯克對如何應(yīng)對這場變革的深層次思考。對于個人而言,每一次技術(shù)革命不僅會帶來全新的生活方式,也會伴隨著巨大的商業(yè)機會。無論是AI技術(shù)的突破,還是大模型驅(qū)動的具身智能,都會帶來新的市場需求與創(chuàng)業(yè)契機。擁抱這次技術(shù)變革,積極尋找其中的機會,不僅是個人發(fā)展的方向,也是應(yīng)對未來挑戰(zhàn)的有效途徑。在技術(shù)層面,具身智能架構(gòu)的復(fù)雜性尤為突出。機器人架構(gòu)的設(shè)計,尤其在任務(wù)規(guī)劃與動作控制的實現(xiàn)方面,涉及多層次的復(fù)雜性,需要對其進行有效的管理與協(xié)調(diào)。在這種背景下,傳統(tǒng)的機器人架構(gòu)設(shè)計就已具有較高的難度,而大模型的引入則又提出了新的挑戰(zhàn)。如何將大模型的推理與規(guī)劃能力有效地集成到機器人中,以實現(xiàn)智能化的任務(wù)和動作決策,是目前亟待解決的問題。而系統(tǒng)架構(gòu)的選擇直接決定了系統(tǒng)的運行效率、功能實現(xiàn)及整體性能。本書正是基于這樣的背景而撰寫的。在書中,我結(jié)合自己在多家企業(yè)中設(shè)計具身智能方案的豐富經(jīng)驗以及深厚的理論基礎(chǔ),以深入淺出的方式為讀者系統(tǒng)剖析大模型驅(qū)動的具身智能的架構(gòu)、設(shè)計與實現(xiàn)。本書旨在圍繞大模型與具身智能的融合,為讀者提供清晰的指導(dǎo)和全面的解析,使其得以從容應(yīng)對技術(shù)變革的浪潮,抓住機遇。本書主要內(nèi)容本書是一本關(guān)于大模型驅(qū)動的具身智能的全面指南,包括11章,深入探討了大模型在具身智能領(lǐng)域的應(yīng)用,以及具身智能的架構(gòu)設(shè)計、任務(wù)級與動作級規(guī)劃、記憶機制、中間件、仿真框架及未來發(fā)展等內(nèi)容。第1章概述具身智能的基本概念和傳統(tǒng)決策算法,介紹世界模型在具身智能中的作用,并討論多模態(tài)大模型構(gòu)建的世界模擬器及其應(yīng)用。第2章介紹機器人控制的基礎(chǔ)知識,包括機器人的分類與組成、自由度、執(zhí)行器,以及傳統(tǒng)的系統(tǒng)設(shè)計范式和運動控制層級,為具身智能的架構(gòu)設(shè)計奠定基礎(chǔ)。第3章深入分析大模型在任務(wù)級和動作級規(guī)劃中的角色,介紹具身大模型的基元級、伺服級控制方法以及分級混合架構(gòu)。第4章探討具身任務(wù)分解、任務(wù)級分層與端到端架構(gòu),結(jié)合微調(diào)與外部記憶,為讀者提供全面的任務(wù)級規(guī)劃實現(xiàn)方法。第5章討論基于動作原語和價值圖的動作級分層規(guī)劃,分析其在空間位置約束、任務(wù)感知動作等應(yīng)用中的優(yōu)勢與局限性。第6章介紹端到端動作級規(guī)劃,通過視覺語言動作模型和多任務(wù)端到端架構(gòu)展示具身大模型在復(fù)雜環(huán)境中的統(tǒng)一規(guī)劃與控制能力。第7章介紹人類記憶和大模型的記憶機制,包括參數(shù)記憶、上下文與工作記憶、外部記憶,并探討其在具身智能中的實現(xiàn)方式和作用。第8章分析多計劃選擇、反思與提煉、外部規(guī)劃器等技術(shù),為具身智能的決策優(yōu)化提供解決方案。第9章重點介紹ROS機器人中間件框架、MoveIt 2逆向運動庫和人形具身逆向運動庫,解析中間件在具身智能中的關(guān)鍵作用。第10章討論仿真框架的組成、仿真環(huán)境構(gòu)建、代理、分層任務(wù)規(guī)劃、運動生成器、強化學(xué)習(xí)支持、模仿學(xué)習(xí)和遠程操作等,為具身智能的虛擬環(huán)境提供基礎(chǔ)。第11章探討具身智能機器人的行業(yè)前景,從成熟度曲線和行業(yè)成熟度等角度展望未來發(fā)展。本書讀者對象●AI領(lǐng)域的工程師。通過對具身智能算法、控制架構(gòu)、微調(diào)和優(yōu)化的深入探討,提高他們在具身智能方面的技術(shù)水平。●AI研究人員。書中關(guān)于大模型與具身智能結(jié)合的前沿技術(shù)及分布式優(yōu)化的內(nèi)容,可為他們提供寶貴的研究和應(yīng)用啟示。●技術(shù)架構(gòu)師和系統(tǒng)設(shè)計師。在設(shè)計大規(guī)模具身智能系統(tǒng)時,本書提供的關(guān)于架構(gòu)設(shè)計、序列化及內(nèi)存管理的詳細信息可作為參考資源。●計算機科學(xué)領(lǐng)域的本科生。本書可幫助他們學(xué)習(xí)具身智能和大模型的基礎(chǔ)理論與實踐,為未來學(xué)習(xí)和職業(yè)發(fā)展提供技術(shù)背景。●計算機科學(xué)領(lǐng)域的研究生。他們可從本書中的高階主題,如多任務(wù)端到端架構(gòu)、優(yōu)化策略等內(nèi)容中獲取靈感,為自己的學(xué)術(shù)或行業(yè)創(chuàng)新提供支持。●商業(yè)戰(zhàn)略規(guī)劃者和技術(shù)決策制定者。在涉及具身智能技術(shù)采購、策略制定時,書中關(guān)于非性能需求、成本優(yōu)化等內(nèi)容可為制定長遠的AI發(fā)展戰(zhàn)略提供指導(dǎo)。聯(lián)系作者鑒于作者的寫作水平有限,書中難免存在不妥之處,如你在閱讀過程中有任何疑問或建議,可以通過郵箱chenggextu@hotmail.com聯(lián)系我。非常期待你的反饋,這將對我未來的寫作有巨大幫助。希望你在閱讀本書的過程中能獲得深刻的啟示,加深對大模型和人工智能的理解。致謝感謝我的家人。在本書的撰寫過程中,我陪伴他們的時間大大減少,但他們始終給予我支持與理解,讓我能夠全身心地投入寫作中,而無后顧之憂。感謝我的研究生李偉華、李泳和謝芃,他們?yōu)楸緯L制了大量的插圖,我對他們的付出表示由衷的感謝。
程戈,博士生導(dǎo)師,湘潭大學(xué)技術(shù)轉(zhuǎn)移中心副主任,湘潭市京東智能城市與大數(shù)據(jù)研究院副院長,湘潭大學(xué)計算機學(xué)院.網(wǎng)絡(luò)空間學(xué)院教授,CCF計算法學(xué)會執(zhí)委,湖南省知識產(chǎn)權(quán)保護專家,湖南省知識產(chǎn)權(quán)行政保護技術(shù)調(diào)查官。2011年獲得華中科技大學(xué)計算機系統(tǒng)結(jié)構(gòu)專業(yè)的工學(xué)博士學(xué)位。 研究方面,主要從事知識表示學(xué)習(xí)與內(nèi)容安全問題研究,并逐漸聚焦于采用類似Chatgpt大規(guī)模語言模型解決人工智能在司法行業(yè)中應(yīng)用的相關(guān)場景。近年來,主持國家重點研發(fā)子課題2項,湖南省重點研發(fā)1項,國家自科基金1項,博士點基金1項,參與其他國家與省部級項目10余項;在國內(nèi)外重要SSCI/SCI/EI學(xué)術(shù)期刊和會議發(fā)表論文 30 多篇;申請發(fā)明專利20多項,獲得發(fā)明專利授權(quán) 20多項,軟件著作權(quán)10多項。 社會服務(wù)方面,產(chǎn)學(xué)研合作求真務(wù)實,在北京捷通華聲科技有限公司等6家企業(yè)擔(dān)任技術(shù)顧問,主持參與橫向課題10余項,多項成果轉(zhuǎn)化應(yīng)用創(chuàng)效,其中語音識別的單項成果廣泛應(yīng)用于北京捷通華聲科技有限公司的車載導(dǎo)航系統(tǒng)中。擔(dān)任瀟湘大數(shù)據(jù)研究院研究員,大數(shù)據(jù)與智慧司法研究中心研究員,省創(chuàng)新創(chuàng)業(yè)大賽的評委。
目錄第1章 大模型與具身智能1 1.1 具身智能的概念1 1.2 傳統(tǒng)的決策算法31.2.1 預(yù)編程方法41.2.2 模仿學(xué)習(xí)51.2.3 強化學(xué)習(xí)6 1.3 世界模型81.3.1 什么是世界模型81.3.2 世界模型在具身智能中的作用10 1.4 通往世界模型的漸進之路121.4.1 大模型編碼世界121.4.2 多模態(tài)大模型構(gòu)建世界模擬器14第2章 機器人系統(tǒng)架構(gòu)19 2.1 機器人控制基礎(chǔ)192.1.1 機器人的分類與組成192.1.2 自由度與執(zhí)行器22 2.2 機器人系統(tǒng)設(shè)計范式242.2.1 層次范式242.2.2 行為范式252.2.3 混合范式27 2.3 運動控制層級272.3.1 遞進規(guī)劃282.3.2 反應(yīng)機制302.3.3 雙向控制架構(gòu)312.3.4 分層與端到端33第3章 基于大模型的混合控制架構(gòu)36 3.1 大模型與任務(wù)級規(guī)劃363.1.1 基礎(chǔ)模型363.1.2 任務(wù)級分層與端到端39 3.2 大模型與動作級規(guī)劃413.2.1 直接動作規(guī)劃413.2.2 間接動作規(guī)劃433.2.3 動作級分層與端到端443.2.4 具身大模型45 3.3 基元級與伺服級463.3.1 正向運動學(xué)的計算463.3.2 逆向運動學(xué)的計算483.3.3 伺服級控制493.3.4 端到端控制網(wǎng)絡(luò)50 3.4 具身智能分級混合架構(gòu)51第4章 具身任務(wù)級規(guī)劃54 4.1 任務(wù)分解54 4.2 任務(wù)級分層與端到端架構(gòu)574.2.1 感知與規(guī)劃574.2.2 分層架構(gòu)574.2.3 端到端架構(gòu)58 4.3 任務(wù)級規(guī)劃微調(diào)與外部記憶614.3.1 具身經(jīng)驗的獲取614.3.2 微調(diào)與外部記憶63第5章 分層動作級規(guī)劃65 5.1 動作原語及其局限性655.1.1 動作原語665.1.2 技能685.1.3 局限性68 5.2 基于技能的單步動作級規(guī)劃705.2.1 低成本具身智能方案705.2.2 GPTR工作流程715.2.3 局限性73 5.3 基于動作原語的直接動作級規(guī)劃755.3.1 代碼即策略755.3.2 提示模板775.3.3 優(yōu)勢與局限性78 5.4 基于價值圖的動作級分層規(guī)劃805.4.1 空間信息與間接動作規(guī)劃805.4.2 價值圖815.4.3 動作規(guī)劃835.4.4 價值圖的構(gòu)建Prompt865.4.5 優(yōu)勢與局限性87 5.5 基于空間位置約束的動作級分層規(guī)劃885.5.1 空間位置約束與軌跡優(yōu)化895.5.2 面向任務(wù)的抓取915.5.3 任務(wù)感知動作規(guī)劃925.5.4 視覺語言模型與Prompt945.5.5 優(yōu)勢與局限性95第6章 端到端動作級規(guī)劃97 6.1 統(tǒng)一模型與多任務(wù)模型97 6.2 視覺語言動作模型996.2.1 動作規(guī)劃流程996.2.2 控制原語1016.2.3 控制參數(shù)的離散化1016.2.4 動作序列文本化1036.2.5 詞表1036.2.6 具身動作微調(diào)1056.2.7 動作輸出限制1066.2.8 優(yōu)勢和局限性108 6.3 多任務(wù)端到端1096.3.1 端到端中的多任務(wù)1096.3.2 多任務(wù)端到端網(wǎng)絡(luò)架構(gòu)1116.3.3 特征提取任務(wù)1126.3.4 感知任務(wù)1136.3.5 預(yù)測任務(wù)1156.3.6 規(guī)劃任務(wù)1176.3.7 多任務(wù)的分步訓(xùn)練1186.3.8 特斯拉全自動駕駛的多任務(wù)架構(gòu)1196.3.9 具身任務(wù)遷移1226.3.10 優(yōu)勢和局限性123第7章 具身智能記憶125 7.1 人類記憶125 7.2 大模型的記憶機制1277.2.1 參數(shù)記憶1277.2.2 上下文與工作記憶1297.2.3 外部記憶130 7.3 具身智能系統(tǒng)中的記憶機制實現(xiàn)1317.3.1 記憶來源1317.3.2 記憶實現(xiàn)方式1337.3.3 基于RAG的外部記憶機制1347.3.4 大模型參數(shù)微調(diào)及參數(shù)編輯135 7.4 記憶在具身智能系統(tǒng)中的作用1377.4.1 記憶驅(qū)動具身智能1377.4.2 技能學(xué)習(xí)與泛化139第8章 決策優(yōu)化142 8.1 多計劃選擇1428.1.1 多計劃生成1438.1.2 最優(yōu)計劃選擇144 8.2 反思與提煉1468.2.1 反思與提煉的過程1468.2.2 多角色1478.2.3 局限性148 8.3 外部規(guī)劃器1498.3.1 符號規(guī)劃器1498.3.2 神經(jīng)網(wǎng)絡(luò)規(guī)劃器151第9章 中間件與基礎(chǔ)庫154 9.1 ROS機器人中間件框架1549.1.1 ROS的生態(tài)系統(tǒng)1559.1.2 ROS 2架構(gòu)1569.1.3 分布式通信模式1579.1.4 節(jié)點1619.1.5 參數(shù)配置162 9.2 MoveIt 2逆向運動庫1649.2.1 基本概念和功能1649.2.2 MoveIt 2的解算器庫1659.2.3 逆向規(guī)劃的一般過程166 9.3 人形具身逆向運動庫1679.3.1 全身逆向運動1679.3.2 人體姿態(tài)表征1689.3.3 交互表征1719.3.4 具身數(shù)據(jù)收集1739.3.5 逆向運動遷移1759.3.6 軌跡優(yōu)化176第10章 仿真框架178 10.1 仿真框架的組成179 10.2 仿真環(huán)境構(gòu)建18110.2.1 交互方式18110.2.2 環(huán)境描述183 10.3 代理184 10.4 分層任務(wù)規(guī)劃186 10.5 運動生成器188 10.6 強化學(xué)習(xí)支持18910.6.1 框架封裝19010.6.2 并行仿真環(huán)境19010.6.3 從仿真到現(xiàn)實192 10.7 模仿學(xué)習(xí)和遠程操作195第11章 具身智能的未來197 11.1 具身智能機器人:短暫泡沫還是未來趨勢19711.1.1 人形具身熱潮19711.1.2 智能化與人形具身198 11.2 行業(yè)滲透預(yù)測20011.2.1 成熟度曲線20011.2.2 行業(yè)成熟度20211.2.3 加速的發(fā)展浪潮203