《基于修辭結構樹庫的篇章銜接標記研究》定量考察漢語常見篇章銜接標記在書面話語中的連貫用法。首先根據(jù)修辭結構理論(Rhetorical Structure Theory,RST),設立了漢語修辭關系集以及關系優(yōu)選協(xié)議,按標注流程開發(fā)出漢語財經(jīng)評論修辭結構樹庫。接著為各類銜接標記在該篇章語料庫中的分布和用法設立多個特征變量,展開形式、句法、語義和語用標注。隨后利用樹庫和標注語料,對特定銜接標記展開深入的個案分析,探討其篇章分布與語用連貫作用之間的相關性。最后嘗試利用銜接標記及其所在篇章單元的形式特征,通過機器學習方法來自動判定所在篇章單元間的修辭連貫關系,測試結果較令人滿意。本文最后也討論了對人工標注質(zhì)量的理解,以及數(shù)據(jù)挖掘技術在語言學研究中的應用前景。
樂明,浙江大學副教授、“求是青年學者”。曾師從馮志偉研究員,于2006年獲中國傳媒大學語言學及應用語言學博士,研究方向為計算語言學。2011年在美國新墨西哥大學語言學系訪問,師從JoanBybee教授,研究方向為語法化理論。已發(fā)表多篇AHCI/CSSCI/SCI/SSCI語言學論文,負責完成國家社科基金青年項目一項及省部級項目兩項。
目前主要的研究方向是語言資源的開發(fā)和利用,重點關注關聯(lián)詞語和人稱代詞在各類自然語篇中的分布和功能,通過制定詳細的工作手冊和標注規(guī)范,指導篇章語料庫的構建以及目標詞語在,語料庫中的多維度標注,在此基礎上用進行量化的語言學本體研究。
縮略語
第一章 篇章連貫研究概論
1.1 研究對象
1.2 研究背景
1.2.1 篇章連貫的理論研究
1.2.2 篇章剖析技術的發(fā)展
1.2.3 標注篇章語料庫的開發(fā)
1.2.4 中文信息處理的相關研究
1.3 研究問題
1.4 研究方法及主要成果
1.5 本書結構
第二章 研究方法
2.1 語料庫設計
2.2 語料標注
2.2.1 標注理據(jù)
2.2.2 標注原則
2.2.3 標注格式
2.2.4 標注手段
2.2.5 標注質(zhì)量的控制和檢驗
2.3 統(tǒng)計分析和機器學習
2.3.1 描述性統(tǒng)計
2.3.2 推斷性統(tǒng)計
2.3.3 機器學習
2.4 小結
第三章 構建漢語篇章修辭結構樹庫
3.1 修辭結構理論
3.1.1 內(nèi)容簡介
3.1.2 應用情況
3.1.3 主要爭議
3.1.4 與漢語傳統(tǒng)理論的比較
3.2 構建漢語篇章語料庫
3.2.1 語料選擇
3.2.2 語料預處理
3.3 漢語篇章基本單元切分
3.3.1 篇章基本單元的定義
3.3.2 切分的方法
3.3.3 自動切分的形式標記
3.3.4 自動切分的處理結果
3.4 漢語篇章修辭關系集的設定
3.4.1 基于特征的定義方法
3.4.2 漢語修辭關系集的簡化分類
3.4.3 一些說明
3.5 修辭關系標注及篇章修辭結構樹的構造
3.5.1 分號句層級及以上的修辭結構標注
3.5.2 逗號子句層級的修辭結構標注
3.6 工具和流程
3.7 質(zhì)量控制和檢驗
3.8 小結
第四章 標注篇章銜接標記特征
4.1 標注對象
4.2 理論框架
4.2.1 連接詞
4.2.2 指代詞
4.2.3 語氣詞
4.2.4 標點符號
4.3 自動標注
4.4 人工標注
4.4.1 標注內(nèi)容(通用部分)
4.4.2 軟件工具
4.4.3 標注流程和質(zhì)量控制
4.5 統(tǒng)計分析和參數(shù)選擇
4.6 小結
第五章 數(shù)據(jù)分析
5.1 財經(jīng)評論語料庫篇章結構特點
5.1.1 修辭結構樹特征
5.1.2 分號句層級上的RR概率分布
5.1.3 小結
5.2 但、但是
5.2.1 前人成果
5.2.2 標注方案
5.2.3 數(shù)據(jù)結果
5.2.4 討論
5.2.5 小結
5.3 這、那
5.3.1 前人成果
5.3.2 標注方案
5.3.3 數(shù)據(jù)結果
5.3.4 討論
5.3.5 小結
5.4 嗎、?
5.4.1 前人成果
5.4.2 標注方案
5.4.3 數(shù)據(jù)結果
5.4.4 討論
5.4.5 小結
第六章 應用測試——以“因為”為例
6.1 研究背景
6.2 任務分析
6.3 學習工具
6.4 數(shù)據(jù)處理、結果及討論
6.5 小結
……
第七章 討論
第八章 結語
第九章 附錄
參考文獻
索引
后記