本教材立足于當(dāng)下大數(shù)據(jù)與人工智能時代,圖書情報學(xué)發(fā)展的新方向和新趨勢,以數(shù)字人文為導(dǎo)向,圍繞中文信息處理的特點,從漢字處理、自動分詞、詞性標(biāo)注、實體識別、淺層句法分析、知識圖譜構(gòu)建、語義標(biāo)注、知識檢索、機器翻譯、預(yù)訓(xùn)練模型為主要章節(jié)內(nèi)容,重點圍繞人工智能與自然語言處理中的前沿深度學(xué)習(xí)技術(shù),進行相關(guān)內(nèi)容的重新編寫。本教材一方面充分講解了深度學(xué)習(xí)在中文信息處理中的具體應(yīng)用,另一方面圍繞每一章,針對每一個知識點,以代碼實戰(zhàn)的形式,呈現(xiàn)和講解知識的細節(jié)和應(yīng)用的技巧,使前沿深度學(xué)習(xí)技術(shù)能夠落到實處,真正幫助專業(yè)學(xué)生掌握必備的技術(shù)能力。較之已出版的相關(guān)教材,本教材最大的創(chuàng)新之處在于,除全面梳理和呈現(xiàn)數(shù)字人文與中文信息處理所需技術(shù)之外,對每一個知識點相關(guān)的應(yīng)用技術(shù)都以具體代碼的形式進行了呈現(xiàn)和講解,使得學(xué)生所學(xué)所有內(nèi)容都能夠落到實處。另一方面,本教材所關(guān)注技術(shù)以中文為對象,包含了目前深度學(xué)習(xí)和自然語言處理的相關(guān)教材所不具備的內(nèi)容,如漢字處理、自動分詞內(nèi)容等。
南京農(nóng)業(yè)大學(xué)教授,博導(dǎo)。主持完成和在研國家自然科學(xué)基金面上、國家自然科學(xué)基金青年、國家社科基金重大項目子課題、江蘇省社科基金項目等共計11項。發(fā)表SSCI、CSSCI檢索論文84篇。以第一作者出版專著三部。江蘇高校“青藍工程”中青年學(xué)術(shù)帶頭人,江蘇省“333高層次人才培養(yǎng)工程”第三層次培養(yǎng)對象。研究方向為:知識管理與知識發(fā)現(xiàn)、Python程序設(shè)計與R語言等。
第一章數(shù)字人文下的漢字處理
1.1漢字基本知識
1.2漢字編碼
1.3漢字處理程序
1.4篆體字自動識別
課后習(xí)題
第二章數(shù)字人文下的漢語分詞
2.1漢語分詞基本知識
2.2非物質(zhì)文化遺產(chǎn)自動分詞系統(tǒng)
課后習(xí)題
第三章數(shù)字人文下的詞性自動標(biāo)注
3.1詞性自動標(biāo)注的基本知識
3.2古文詞性自動標(biāo)注的程序
課后習(xí)題
第四章數(shù)字人文下的實體識別
4.1命名實體識別概念與基本原理
4.2古文實體識別流程
課后習(xí)題
第五章數(shù)字人文下的模型預(yù)訓(xùn)練
5.1預(yù)訓(xùn)練技術(shù)的基本知識
5.2預(yù)訓(xùn)練方法與評價指標(biāo)
5.3模型預(yù)訓(xùn)練程序
課后習(xí)題
第六章數(shù)字人文下的知識圖譜構(gòu)建及應(yīng)用
6.1知識圖譜構(gòu)建的基本知識
6.2基于領(lǐng)域知識圖譜的自動問答研究
課后習(xí)題
第七章數(shù)字人文下的語義標(biāo)注
7.1語義標(biāo)注的基本知識
7.2古文語義相似度計算程序
課后習(xí)題
第八章數(shù)字人文下的文本分類
8.1文本分類基本知識
8.2非物質(zhì)文化遺產(chǎn)的文本分類程序
課后習(xí)題
第九章數(shù)字人文下的文本聚類?
9.1文本聚類基本知識
9.2非物質(zhì)文化遺產(chǎn)的自動聚類
課后習(xí)題
第十章數(shù)字人文下的機器翻譯
10.1機器翻譯的基本知識
10.2典籍的漢英和漢白機器翻譯程序
課后習(xí)題