現(xiàn)代漢語(yǔ)未登錄詞詞類和語(yǔ)義類標(biāo)注研究
未登錄詞處理主要包括識(shí)別、詞類標(biāo)注和語(yǔ)義類標(biāo)注等內(nèi)容。目前自然語(yǔ)言處理學(xué)界對(duì)于未登錄詞識(shí)別研究較多,對(duì)于未登錄詞詞類標(biāo)注和語(yǔ)義類標(biāo)注則研究較少。因此,本文主要專注于現(xiàn)代漢語(yǔ)未登錄詞詞類標(biāo)注和語(yǔ)義類標(biāo)注的研究。在未登錄詞詞類標(biāo)注和語(yǔ)義類標(biāo)注過(guò)程中主要有兩類可以使用的特征,即內(nèi)部特征和外部特征。所謂內(nèi)部特征指未登錄詞的成分、成分的屬性以及成分、成分屬性的組合序列;所謂外部特征指未登錄詞在語(yǔ)料中的分布,通常用未登錄詞的上下文來(lái)表示。本文在前人研究工作的基礎(chǔ)上,構(gòu)建了大規(guī)模的生語(yǔ)料庫(kù),分別使用基于內(nèi)部特征和外部特征的方法以及兩種特征相結(jié)合的方法來(lái)自動(dòng)處理未登錄詞詞類和語(yǔ)義類標(biāo)注的問(wèn)題。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
2000年我給北京大學(xué)中文系本科四年級(jí)學(xué)生開“理論語(yǔ)言學(xué)”課,邱立坤是班上最喜歡提問(wèn)題和爭(zhēng)論問(wèn)題的同學(xué)之一。他也是一位癡迷語(yǔ)言學(xué)的年輕人,每次和同學(xué)或老師談起語(yǔ)言學(xué),眼睛就開始發(fā)亮。那時(shí)候我們經(jīng)常討論句法結(jié)構(gòu)關(guān)系、語(yǔ)類問(wèn)題和句法的初始概念問(wèn)題。我一直指導(dǎo)他的本科學(xué)位論文、碩士學(xué)位論文和博士學(xué)位論文,句法理論的基本問(wèn)題一直伴隨著我們。學(xué)習(xí)期間,立坤還選修了大量計(jì)算機(jī)課程,人和機(jī)器的關(guān)系,自然語(yǔ)言理解的概率模型和規(guī)則模型也是我們討論的重點(diǎn)。這本書是立坤在博士論文基礎(chǔ)上擴(kuò)展而成的,要解決的問(wèn)題是未登錄詞的語(yǔ)類標(biāo)注,包括語(yǔ)法的和語(yǔ)義的。這項(xiàng)工作的意義先得從單位和規(guī)則說(shuō)起。
按照結(jié)構(gòu)語(yǔ)言學(xué)的理論,先要確定詞,再確定詞類。詞是最小的自由形式,比如“該校、該系、該所”等分別都是詞。確定了詞以后,再根據(jù)分布確定詞類!霸撔!边@些詞都分布在通常稱為名詞的環(huán)境中:
該校有問(wèn)題,需要對(duì)該校進(jìn)行調(diào)查
該系有問(wèn)題,需要對(duì)該系進(jìn)行調(diào)查
該所有問(wèn)題,需要對(duì)該所進(jìn)行調(diào)查
至于“該校、該系、該所”的構(gòu)詞語(yǔ)素“該、校、系、所”,盡管是最小的,但不自由,不是詞,因此無(wú)法根據(jù)自由分布的理論對(duì)這些語(yǔ)素進(jìn)行語(yǔ)法分類,也無(wú)法根據(jù)這些語(yǔ)素的分布信息來(lái)確定“該校、該系、該所”這些詞的語(yǔ)類。概括地說(shuō),結(jié)構(gòu)語(yǔ)言學(xué)確定“該校”的語(yǔ)類必須通過(guò)“該!钡姆植。
目錄
第1章 緒論1
1.1研究對(duì)象、背景、問(wèn)題及應(yīng)用價(jià)值1
1.2研究原則、方法與技術(shù)路線4
1.3本書的組織結(jié)構(gòu)6
第2章 方法論8
2.1語(yǔ)言本體方面的相關(guān)研究8
2.2計(jì)算方面的相關(guān)研究14
2.3本書工作的方法論基礎(chǔ)18
第3章 相關(guān)資源、方法和工具23
3.1相關(guān)語(yǔ)言資源23
3.2條件隨機(jī)場(chǎng)24
3.3評(píng)測(cè)方法與評(píng)測(cè)指標(biāo)24
3.4軟件工具25
第4章 現(xiàn)代漢語(yǔ)復(fù)合詞內(nèi)部結(jié)構(gòu)詞典的構(gòu)造26
4.1漢語(yǔ)復(fù)合詞的基本構(gòu)造類型26
4.2詞典構(gòu)建方案27
4.3自動(dòng)標(biāo)注方法28
4.4結(jié)構(gòu)分析方案、原則和方法30
4.5結(jié)構(gòu)關(guān)系類型的判斷31
4.6成分語(yǔ)法類的判斷32
4.7成分語(yǔ)義類的判斷34
4.8計(jì)算機(jī)輔助人工標(biāo)注35
第5章 未登錄詞詞類自動(dòng)標(biāo)注37
5.1基于內(nèi)部特征的模型38
5.2可信度計(jì)算40
5.3基于外部特征的詞類標(biāo)注模型41
5.4實(shí)驗(yàn)結(jié)果43
5.5實(shí)驗(yàn)結(jié)果分析46
第6章 基于內(nèi)部特征的未登錄詞語(yǔ)義類自動(dòng)標(biāo)注47
6.1基線模型48
6.2基于內(nèi)部特征的模型(模型1)50
6.3雙向平行類推規(guī)則與成對(duì)替換類推規(guī)則的分析58
6.4實(shí)驗(yàn)59
第7章 結(jié)合內(nèi)部與外部特征的未登錄詞語(yǔ)義類自動(dòng)標(biāo)注66
7.1結(jié)合內(nèi)部特征與外部特征的模型(模型2)67
7.2實(shí)驗(yàn)72
第8章 未登錄詞語(yǔ)義類自動(dòng)標(biāo)注的應(yīng)用81
8.1語(yǔ)義詞典修正81
8.2語(yǔ)義詞典擴(kuò)充97
第9章基于分布式詞表示的類比識(shí)別與類比挖掘99
9.1關(guān)系相似度任務(wù)與詞嵌入模型100
9.2服務(wù)于類比識(shí)別的基于依存上下文的詞語(yǔ)embedding表示102
9.3改進(jìn)的類比識(shí)別方法:使用句法依存減少搜索空間103
9.4基于依存embedding的類比挖掘104
9.5實(shí)驗(yàn)106
結(jié)語(yǔ)114
參考文獻(xiàn)116
附錄123
附錄A雙向平行類推規(guī)則示例(后字為共同成分)123
附錄B雙向平行類推規(guī)則示例(前字為共同成分)133
附錄C成對(duì)替換類推規(guī)則示例(前字為替換成分)134
附錄D成對(duì)替換類推規(guī)則示例(后字為替換成分)150
后記163
表目錄
表4.1語(yǔ)義詞典義項(xiàng)分類列表26
表4.2自動(dòng)分析方法標(biāo)注結(jié)果匯總30
表5.1四種特征分析方案39
表5.2低可信度序列示例41
表5.3句法模板列表(以“喜歡”為例)42
表5.4訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)中的詞長(zhǎng)分布43
表5.5基于內(nèi)部特征的四種方案的實(shí)驗(yàn)結(jié)果44
表5.6使用基于全局上下文的模型及規(guī)則之后的結(jié)果45
表5.7與Wu和Jiang(2000)所提方法的比較46
表6.1未登錄詞“文化部門”的訓(xùn)練詞語(yǔ)51
表6.2序列化子模型使用的特征模板54
表6.3SSM方法字類關(guān)聯(lián)模型在《詞林》IV測(cè)試集上的結(jié)果61
表6.4SSM方法規(guī)則子模型在《詞林》IV測(cè)試集上的結(jié)果61
表6.5SSM方法混合模型在《詞林》IV測(cè)試集上的結(jié)果61
表6.6模型1類類關(guān)聯(lián)子模型在《詞林》IV集上的結(jié)果62
表6.7各種方法在《詞林》IV集上的結(jié)果比較63
表6.8SSM方法規(guī)則子模型在《HowNet》IV集上的結(jié)果63
表6.9模型1類類關(guān)聯(lián)子模型在《HowNet》IV集上的結(jié)果64
表6.10各模型在《HowNet》IV集上的結(jié)果比較64
表6.11各方法在《詞林》TSOOV集上的結(jié)果比較65
表7.1哈爾濱工業(yè)大學(xué)依存句法標(biāo)注體系及其含義69
表7.2上下文詞語(yǔ)頻次示例70
表7.3模型2與其他方法的比較74
表7.4權(quán)重計(jì)算方法的比較76
表7.5模型2中三個(gè)選項(xiàng)的比較77
表8.1基于成對(duì)替換類推規(guī)則的詞典修正算法1結(jié)果分析示例84
表8.2基于雙向平行類推規(guī)則的詞典修正算法1結(jié)果分析示例86
表8.3TS1義項(xiàng)缺失或不當(dāng)自動(dòng)發(fā)現(xiàn)結(jié)果分析90
表8.4五個(gè)昀佳候選結(jié)果98
表9.《同義詞詞林》和CWS上的漢語(yǔ)embedding評(píng)價(jià)結(jié)果108
表9.CAQS上的漢語(yǔ)embedding評(píng)價(jià)結(jié)果109
表9.Google數(shù)據(jù)集上的英語(yǔ)embedding評(píng)價(jià)結(jié)果109
表9.NG2、NG5、DEP相似詞示例110
表9.類比挖掘?qū)嶒?yàn)結(jié)果112
圖目錄
圖5.1特征模板40
圖5.2投票標(biāo)準(zhǔn)42
圖6.1模型1步驟說(shuō)明57
圖7.1依存句法分析示例70
圖7.2權(quán)重計(jì)算方法71
圖7.3模型2F值隨K值變化曲線(0<K<80)76
圖9.1依存句法樹示例103
圖9.2基于自舉的類比挖掘算法105