數據標注乃至人工智能行業(yè)的發(fā)展關鍵在于專業(yè)人才的培養(yǎng)。在未來幾十年,數據標注會伴隨著人工智能需求的不斷提高而不斷發(fā)展。本書對數據標注、數據處理、項目管理、問句復述標注、拼音停頓標注和3D點云標注進行逐一講解和分析,每種標注類型均配有對應的規(guī)范、舉例分析、習題與解析。本書還針對各類標注類型配套了多種子任務類型或多個領域的實操練習題,目的是幫助數據標注學習者掌握相關知識,從而實現系統(tǒng)、完整的數據標注技能學習和實戰(zhàn)練習。
張熠天,國家工業(yè)信息安全發(fā)展研究中心高級工程師,教育部計算機行業(yè)指導委員會委員、中國中文信息學會智能寫作專委會委員、中國智能寫作聯盟秘書長、清華大學戰(zhàn)略與安全研究中心客座研究員、清華大學人工智能國際治理中心項目主任。政策研究方面:支撐國安委某戰(zhàn)略性文件、作為主要起草者參與中央深改組《關于促進人工智能和實體經濟深度融合的指導意見》,工信部《促進新一代人工智能產業(yè)發(fā)展三年行動計劃(2018-2020)》起草。技術及理論研究方面:牽頭多部委的研究課題和重點專項,在人工智能技術圖譜,智能語音、NLP、智能寫作等方向著有研究成果,研究成果曾獲工信部優(yōu)秀科研成果一等獎。國際治理方面:中美二軌談判專家組成員、中美歐人工智能巴黎對話中方代表。
目錄
第 1 章 數據處理技術基礎 001
1.1 數據清洗 002
1.1.1 數據清洗的常見操作 002
1.1.2 數據清洗操作詳解 003
1.2 數據安全 011
1.2.1 數據安全的概念 011
1.2.2 數據安全措施的制定流程 012
1.2.3 保證數據安全的手段 014
1.3 實訓習題 017
本章小結 017
第 2 章 項目管理進階 019
2.1 項目規(guī)劃設計 019
2.1.1 何為項目規(guī)劃 020
2.1.2 項目規(guī)劃的流程 020
2.1.3 項目規(guī)劃的內容 021
2.1.4 標注項目規(guī)劃 023
2.2 標注項目需求分析 030
2.2.1 需求 031
2.2.2 需求分析 032
2.2.3 標注項目需求分析詳解 034
2.3 標注流程設計 042
2.3.1 標注流程 043
2.3.2 標注流程設計原則 046
2.3.3 標注流程中常見環(huán)節(jié)關注點及其設計 048
2.3.4 標注流程中的“技術賦能”操作 054
2.3.5 標注流程設計中的誤區(qū) 055
2.4 標注規(guī)范設計 057
2.4.1 為什么要設計標注規(guī)范 057
2.4.2 標注規(guī)范設計原則 059
2.4.3 標注規(guī)范的設計 060
2.4.4 標注規(guī)范設計中的誤區(qū) 063
2.5 標注系統(tǒng)設計 064
2.5.1 為什么要設計標注系統(tǒng) 064
2.5.2 標注系統(tǒng)設計原則 066
2.5.3 標注系統(tǒng)的設計 068
2.5.4 標注系統(tǒng)部分標注類型標注頁面設計方案對比分析 073
2.5.5 標注系統(tǒng)中的智能化操作 078
2.6 標注項目培訓 080
2.6.1 標注項目培訓的內容 080
2.6.2 標注項目培訓的方式 082
2.6.3 標注項目培訓的基本過程 083
2.6.4 標注項目培訓方案的制定 085
2.6.5 標注項目培訓需要特別關注的關鍵內容 088
2.7 實訓習題 089
本章小結 090
第 3 章 問句復述標注 092
3.1 認識問句復述 092
3.1.1 問句復述的意義 093
3.1.2 問句復述中需要明確的概念 093
3.2 問句復述標注實戰(zhàn) 094
3.2.1 問句復述標注規(guī)范 095
3.2.2 案例分析 102
3.3 實訓習題 103
本章小結 103
第 4 章 3D 點云標注 105
4.1 認識 3D 點云 105
4.1.1 什么是 3D 點云 105
4.1.2 3D 點云的常見應用領域 106
4.1.3 3D 點云相關研究內容 108
4.2 什么是 3D 點云標注 108
4.3 3D 點云標注實戰(zhàn) 111
4.3.1 3D 點云標注規(guī)范 111
4.3.2 案例分析 129
4.4 實訓習題 130
本章小結 131
第 5 章 語音合成——拼音停頓標注 132
5.1 認識語音合成及其相關標注類型 132
5.1.1 語音合成技術 133
5.1.2 語音合成技術中的標注類型 134
5.2 拼音停頓標注實戰(zhàn) 135
5.2.1 拼音停頓標注規(guī)范 135
5.2.2 案例分析 147
5.3 實訓習題 147
本章小結 148
第 6 章 數據處理實戰(zhàn) 149
6.1 問句復述原始數據處理實戰(zhàn) 149
6.1.1 處理規(guī)則 150
6.1.2 清洗實例 151
6.2 音頻數據預處理 153
6.2.1 音頻數據處理要求 153
6.2.2 音頻數據處理步驟 154
6.3 實訓習題 163
本章小結 163
附錄 A 165