實(shí)體消解指南:使用Python進(jìn)行數(shù)據(jù)匹配 [英]邁克爾·希勒
定 價(jià):69 元
- 作者:[英]邁克爾·希勒
- 出版時(shí)間:2025/6/1
- ISBN:9787111783299
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
在數(shù)據(jù)驅(qū)動(dòng)時(shí)代,實(shí)體消解技術(shù)是打通數(shù)據(jù)孤島的核心利器。本書(shū)以Python為工具,系統(tǒng)講解從數(shù)據(jù)清洗到云端大規(guī)模部署的全流程技術(shù):·基礎(chǔ)原理:解析實(shí)體消解5大步驟(數(shù)據(jù)標(biāo)準(zhǔn)化、分塊、屬性比較、匹配分類(lèi)、聚類(lèi)),直面姓名模糊、數(shù)據(jù)缺失、跨源匹配等實(shí)戰(zhàn)難題;·算法攻堅(jiān):詳解編輯距離、Jaro-Winkler相似度等文本匹配技術(shù),結(jié)合貝葉斯定理、期望zui大化算法構(gòu)建概率匹配模型;·工具實(shí)戰(zhàn):基于Splink實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)消解,通過(guò)谷歌云平臺(tái)擴(kuò)展至百萬(wàn)級(jí)數(shù)據(jù)集;·前沿拓展:引入隱私增強(qiáng)技術(shù)(PSI),平衡數(shù)據(jù)利用與合規(guī)風(fēng)險(xiǎn)。全書(shū)配套GitHub代碼庫(kù),以英國(guó)公司注冊(cè)署、海事署等真實(shí)數(shù)據(jù)演示跨領(lǐng)域(金融風(fēng)控、供應(yīng)鏈管理)場(chǎng)景應(yīng)用,助力讀者構(gòu)建可復(fù)用的數(shù)據(jù)資產(chǎn)整合方案。
本書(shū)是數(shù)據(jù)工程師的實(shí)戰(zhàn)寶典!從實(shí)體消解基礎(chǔ)概念切入,系統(tǒng)拆解數(shù)據(jù)標(biāo)準(zhǔn)化、文本模糊匹配(Levenshtein距離、Metaphone算法)、概率模型(Fellegi-Sunter模型、貝葉斯因子)、聚類(lèi)分塊等核心技術(shù),更獨(dú)家涵蓋Splink框架、谷歌云Dataproc集群部署、企業(yè)知識(shí)圖譜API等前沿工具。作者以真實(shí)金融反欺詐案例貫穿全書(shū),手把手教學(xué)Python代碼實(shí)現(xiàn),并前瞻隱私集合求交(PSI)等合規(guī)技術(shù)。經(jīng)Splink工具作者Robin Linacre力薦,既是新手入門(mén)教材,也是資深從業(yè)者的技術(shù)進(jìn)階手冊(cè)。
譯者序在當(dāng)今這個(gè)信息爆炸的時(shí)代,海量數(shù)據(jù)的涌現(xiàn)為各行各業(yè)帶來(lái)了前所未有的機(jī)遇與挑戰(zhàn)。如何從紛繁復(fù)雜的數(shù)據(jù)中精準(zhǔn)提取出有價(jià)值的信息,成為亟待解決的問(wèn)題。而實(shí)體消解技術(shù),正是應(yīng)對(duì)這一問(wèn)題的關(guān)鍵利器之一。無(wú)論是在商業(yè)智能領(lǐng)域助力企業(yè)精準(zhǔn)洞察客戶需求、優(yōu)化供應(yīng)鏈管理,還是在學(xué)術(shù)研究中整合多源異構(gòu)數(shù)據(jù)以挖掘新知識(shí),乃至協(xié)助政府部門(mén)進(jìn)行公共事務(wù)管理、提升社會(huì)治理效能,實(shí)體消解技術(shù)都發(fā)揮著重要作用。顧名思義,實(shí)體消解就是將不同數(shù)據(jù)源中指代同一實(shí)體的多個(gè)記錄識(shí)別出來(lái)并將其合并為統(tǒng)一實(shí)體表示的過(guò)程。實(shí)體消解技術(shù)通過(guò)一系列復(fù)雜的算法和流程,實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)對(duì)接與融合,從而為后續(xù)的數(shù)據(jù)分析、知識(shí)發(fā)現(xiàn)、業(yè)務(wù)決策等環(huán)節(jié)奠定堅(jiān)實(shí)的基礎(chǔ)。本書(shū)正是對(duì)這一重要技術(shù)的全面而深入的剖析。從基礎(chǔ)概念的闡釋?zhuān)綄?shí)際操作的指導(dǎo),再到前沿技術(shù)的探討,本書(shū)涵蓋了實(shí)體消解的方方面面。書(shū)中對(duì)每個(gè)步驟都進(jìn)行了細(xì)致的講解,不僅提供了豐富的理論知識(shí),還結(jié)合實(shí)際案例,展示了如何在具體場(chǎng)景下應(yīng)用這些技術(shù)和方法。本書(shū)既有高屋建瓴的理論闡述,又有細(xì)致入微的代碼示例與案例剖析,相信無(wú)論讀者是初涉該領(lǐng)域、渴望構(gòu)建扎實(shí)的知識(shí)根基的新手,還是經(jīng)驗(yàn)頗豐、尋求創(chuàng)新思路與技術(shù)進(jìn)階的專(zhuān)業(yè)人士,都能從這本書(shū)中覓得所需。衷心期望本書(shū)的問(wèn)世,能夠?yàn)樽x者的事業(yè)與研究注入新的活力,助力更多讀者跨越知識(shí)鴻溝,在實(shí)體消解乃至更廣闊的數(shù)據(jù)處理天地中自由馳騁,開(kāi)啟數(shù)字化智慧之旅。讀者在閱讀過(guò)程中,如果發(fā)現(xiàn)問(wèn)題或錯(cuò)誤,歡迎與我聯(lián)系,我的電子郵箱是seancheney@qq.com。林潤(rùn)前言人們都希望做出更好的決策。無(wú)論是為了更好地服務(wù)客戶,還是為了保障客戶的安全,人們都希望做出正確的判斷并開(kāi)展正確的工作。為了能夠自信地行動(dòng),人們需要了解服務(wù)對(duì)象及其信息。雖然人們時(shí)常有大量數(shù)據(jù)可以使用,但這些 數(shù)據(jù)往往是孤立的,難以完整描述個(gè)體全貌。實(shí)體消解是連接數(shù)據(jù)、串聯(lián)數(shù)據(jù)并揭示全貌的技術(shù)。本書(shū)是一本實(shí)操指南,旨在幫助讀者了解實(shí)體消解廣闊的知識(shí)背景,掌握實(shí)體消解技術(shù)并靈活運(yùn)用它。 數(shù)據(jù)匹配看起來(lái)很容易,但通過(guò)本書(shū),讀者將了解到數(shù)據(jù)匹配并非總是一帆風(fēng) 順的。不過(guò)不用擔(dān)心,閱讀完全書(shū),讀者就能夠克服這些挑戰(zhàn),讓數(shù)據(jù)集煥發(fā)生機(jī)。本書(shū)讀者本書(shū)適合金融服務(wù)、制藥業(yè)或其他大型企業(yè)的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家閱讀。如果你正面臨數(shù)據(jù)孤島難題、不同數(shù)據(jù)庫(kù)中的客戶信息存在分歧, 或者你要合并來(lái)自不同組織或附屬公司的信息,本書(shū)也適合你。負(fù)責(zé)防范金融犯罪、管理聲譽(yù)及供應(yīng)鏈風(fēng)險(xiǎn)的風(fēng)險(xiǎn)管理專(zhuān)家,也能從本書(shū)對(duì)數(shù)據(jù)匹配挑戰(zhàn)及其解決策略的深入討論中受益。為什么撰寫(xiě)本書(shū)實(shí)體消解的挑戰(zhàn)無(wú)處不在。雖然我們可能不常用這個(gè)術(shù)語(yǔ),但實(shí)體消解過(guò)程每天都在重復(fù)發(fā)生。在完成本書(shū)的幾周前,妻子讓我?guī)椭藢?duì)銀行對(duì)賬單上的 付款人名單,以確認(rèn)名單上的人是否都付款了。這正是實(shí)體消解的實(shí)際應(yīng)用!創(chuàng)作本書(shū)的想法,源于我想要闡釋為什么核對(duì)名單上的匹配項(xiàng)并不像聽(tīng)起來(lái)那么簡(jiǎn)單,還想展示一些現(xiàn)在可用于高效處理實(shí)體消解問(wèn)題的優(yōu)秀工具和技術(shù)。通過(guò)介紹一些真實(shí)案例,我希望讀者能夠自信地對(duì)數(shù)據(jù)集進(jìn)行匹配,從而更好 地服務(wù)并保護(hù)客戶。非常歡迎讀者向我分享讀書(shū)的心得體會(huì),或是對(duì)本書(shū)的任何反饋。如果對(duì)本書(shū)附帶的代碼有任何疑問(wèn),歡迎在 GitHub(https://github. com/mshearer0/HandsOnEntityResolution )上提出。若想討論實(shí)體消解問(wèn)題,請(qǐng)通過(guò) LinkedIn(https://www.linkedin.com/in/mshearer0)聯(lián)系我。實(shí)體消解既是一門(mén)技藝,也是一門(mén)科學(xué)。不存在適用于所有數(shù)據(jù)集的通用解決方案,因此開(kāi)發(fā)者需要根據(jù)自身需求調(diào)整算法,以達(dá)成期望結(jié)果。希望本書(shū)讀 者能夠相互幫助,找到最佳解決方案,通過(guò)分享彼此的經(jīng)驗(yàn),讓眾人受益。本書(shū)導(dǎo)覽本書(shū)旨在提供實(shí)體消解的實(shí)操指南,因此鼓勵(lì)讀者在逐章學(xué)習(xí)時(shí)動(dòng)手運(yùn)行代碼。本書(shū)的核心原則是通過(guò)使用真實(shí)的開(kāi)源數(shù)據(jù),展示實(shí)體消解中的挑戰(zhàn)與解決方案。但是,使用開(kāi)源數(shù)據(jù)可能會(huì)面臨一些挑戰(zhàn),因?yàn)殚_(kāi)源數(shù)據(jù)集在發(fā)布后可能 會(huì)有更新,導(dǎo)致讀者的運(yùn)算結(jié)果略有不同。請(qǐng)查看 GitHub頁(yè)面(https://github.com/mshearer0/HandsOnEntityResolution),以獲取及時(shí)更新,并訪問(wèn)最新代碼。本書(shū)各章內(nèi)容如下:? 第 1 章簡(jiǎn)要介紹實(shí)體消解,解釋為什么需要進(jìn)行實(shí)體消解,及實(shí)體消解包含的主要步驟。? 第 2 章闡述在嘗試匹配記錄之前,數(shù)據(jù)標(biāo)準(zhǔn)化的重要性。? 第 3 章至第 6 章展示如何使用模糊匹配和概率匹配方法,比較數(shù)據(jù)記錄以消解實(shí)體。? 第 7 章介紹對(duì)于描述同一實(shí)體的記錄,將其聚類(lèi)到唯一可識(shí)別簇的過(guò)程。? 第 8 章和第 9 章展示如何使用云計(jì)算服務(wù)大規(guī)模實(shí)施實(shí)體消解。? 第 10 章介紹如何利用記錄關(guān)聯(lián)技術(shù)保護(hù)數(shù)據(jù)所有者隱私。? 第 11 章介紹對(duì)實(shí)體消解算法設(shè)計(jì)的進(jìn)一步思考,并展望實(shí)體消解技術(shù)的未來(lái)發(fā)展。建議讀者連續(xù)閱讀第 2 章至第 9 章,因?yàn)檫@些章節(jié)會(huì)使用相同的數(shù)據(jù)集逐步構(gòu) 建出實(shí)體消解解決方案。本書(shū)假定讀者具備 Python 基礎(chǔ)知識(shí)。如有學(xué)習(xí)需要,可訪問(wèn)互動(dòng)教程網(wǎng)站 http://learnpython.org。此外,強(qiáng)烈推薦 Wes McKinney 所著的 Python for Data Analysis一書(shū)。對(duì)于更有經(jīng)驗(yàn)的讀者,建議學(xué)習(xí) pandas、Spark 和 Google Cloud Platform,肯定能有所收獲。
Michael Shearer是HAWK:AI公司的首席解決方案官,該公司致力于幫助金融機(jī)構(gòu)偵測(cè)金融犯罪活動(dòng)。作為匯豐銀行前董事總經(jīng)理,他在2014—2023年間主導(dǎo)開(kāi)發(fā)了一套合規(guī)系統(tǒng)。此外,邁克爾還在英國(guó)政府部門(mén)擁有20年的工作經(jīng)驗(yàn),曾擔(dān)任多個(gè)關(guān)鍵的管理和技術(shù)角色。
目錄前言1第1章 實(shí)體消解入門(mén)71.1 什么是實(shí)體消解71.2 實(shí)體消解的作用81.3 實(shí)體消解的主要挑戰(zhàn)91.3.1 姓名缺少唯一性91.3.2 命名約定不一致91.3.3 數(shù)據(jù)獲取不一致101.3.4 示例111.3.5 故意模糊處理121.3.6 匹配組合121.3.7 盲目匹配131.4 實(shí)體消解過(guò)程131.4.1 數(shù)據(jù)標(biāo)準(zhǔn)化141.4.2 記錄分塊141.4.3 屬性比較141.4.4 匹配分類(lèi)141.4.5 聚類(lèi)141.4.6 規(guī)范化151.4.7 示例151.5 評(píng)估結(jié)果161.6 正式開(kāi)始17第2章 數(shù)據(jù)標(biāo)準(zhǔn)化192.1 案例192.2 設(shè)置環(huán)境202.3 獲取數(shù)據(jù)222.3.1 維基百科數(shù)據(jù)222.3.2 TheyWorkForYou數(shù)據(jù)242.4 清洗數(shù)據(jù)262.4.1 清洗維基百科數(shù)據(jù)262.4.2 清洗TheyWorkForYou數(shù)據(jù)272.5 比較屬性282.6 選區(qū)292.7 評(píng)估結(jié)果332.8 計(jì)算樣本342.9 總結(jié)35第3章 文本匹配363.1 編輯距離匹配363.1.1 Levenshtein距離373.1.2 Jaro相似度383.1.3 Jaro-Winkler相似度393.2 語(yǔ)音匹配413.2.1 Metaphone算法413.2.2 MRA算法413.3 技術(shù)比較413.4 案例423.5 全面相似度比較443.6 評(píng)估結(jié)果473.7 總結(jié)48第4章 概率匹配494.1 案例494.2 單一屬性匹配概率514.2.1 名字匹配概率514.2.2 姓氏匹配概率524.3 多屬性匹配概率534.4 概率模型554.4.1 貝葉斯定理554.4.2 m值564.4.3 u值574.4.4 λ值574.4.5 貝葉斯因子584.4.6 Fellegi-Sunter模型584.4.7 匹配權(quán)重594.5 期望最大化算法604.5.1 第一次迭代604.5.2 第二次迭代624.5.3 第三次迭代634.6 Splink入門(mén)654.6.1 配置Splink654.6.2 Splink匹配結(jié)果684.7 總結(jié)71第5章 記錄分塊725.1 案例725.2 獲取數(shù)據(jù)735.2.1 維基百科數(shù)據(jù)735.2.2 英國(guó)公司注冊(cè)署數(shù)據(jù)745.3 數(shù)據(jù)標(biāo)準(zhǔn)化755.3.1 維基百科數(shù)據(jù)755.3.2 英國(guó)公司注冊(cè)署數(shù)據(jù)765.4 記錄分塊與屬性比較765.4.1 使用Splink進(jìn)行記錄分塊775.4.2 比較屬性785.5 匹配分類(lèi)825.6 評(píng)估結(jié)果845.7 總結(jié)84第6章 匹配公司856.1 案例856.2 獲取數(shù)據(jù)866.3 數(shù)據(jù)標(biāo)準(zhǔn)化866.3.1 英國(guó)公司注冊(cè)署數(shù)據(jù)876.3.2 英國(guó)海事及海岸警衛(wèi)署數(shù)據(jù)886.4 記錄分塊與屬性比較896.5 匹配分類(lèi)926.6 評(píng)估結(jié)果946.7 匹配新實(shí)體966.8 總結(jié)97第7章 聚類(lèi)987.1 簡(jiǎn)單精確匹配聚類(lèi)997.2 近似匹配聚類(lèi)1017.3 案例1047.3.1 獲取數(shù)據(jù)1047.3.2 數(shù)據(jù)標(biāo)準(zhǔn)化1057.4 記錄分塊與屬性比較1057.4.1 數(shù)據(jù)分析1067.4.2 期望最大化分塊規(guī)則1067.5 匹配分類(lèi)與聚類(lèi)1107.6 簇可視化1127.7 聚類(lèi)分析1137.8 總結(jié)117第8章 使用谷歌云平臺(tái)進(jìn)行擴(kuò)展1198.1 谷歌云設(shè)置1208.2 創(chuàng)建Dataproc集群1248.3 配置Dataproc集群1288.4 使用Spark進(jìn)行實(shí)體消解1308.5 評(píng)估結(jié)果1338.6 整理工作1338.7 總結(jié)134第9章 實(shí)體消解云服務(wù)1359.1 BigQuery簡(jiǎn)介1359.2 企業(yè)知識(shí)圖譜 API1389.2.1 模式映射1389.2.2 消解作業(yè)1409.2.3 處理結(jié)果1459.2.4 實(shí)體消解Python客戶端1479.3 評(píng)估結(jié)果1499.4 總結(jié)150第10章 利用記錄關(guān)聯(lián)技術(shù)保護(hù)隱私15110.1 隱私集合求交簡(jiǎn)介15110.2 PSI原理15210.3 基于ECDH的PSI協(xié)議15410.3.1 布隆過(guò)濾器15410.3.2 格倫布編碼集15710.4 案例:使用PSI16010.4.1 設(shè)置環(huán)境16010.4.2 服務(wù)器代碼16310.4.3 客戶端代碼16510.4.4 完整的MCA和公司注冊(cè)署樣本示例17010.5 總結(jié)172第11章 進(jìn)一步探討17311.1 數(shù)據(jù)問(wèn)題探討17311.1.1 非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題17311.1.2 數(shù)據(jù)質(zhì)量問(wèn)題17411.1.3 時(shí)效性問(wèn)題17411.2 屬性比較17511.2.1 集合匹配17511.2.2 地理編碼位置匹配17511.2.3 匯總比較17611.3 后處理17611.4 圖形表示17811.5 實(shí)時(shí)性問(wèn)題17811.6 評(píng)估結(jié)果17911.6.1 成對(duì)方法18011.6.2 基于簇的方法18011.7 實(shí)體消解的未來(lái)181