注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫理論文本數(shù)據(jù)挖掘(第2版)

文本數(shù)據(jù)挖掘(第2版)

文本數(shù)據(jù)挖掘(第2版)

定 價(jià):¥99.00

作 者: 宗成慶、夏睿、張家俊
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302612957 出版時(shí)間: 2022-11-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  文本數(shù)據(jù)挖掘是通過機(jī)器學(xué)習(xí)、自然語言處理和推理等相關(guān)技術(shù)或方法,理解、分析和挖掘文本的內(nèi) 容,從而完成信息抽取、關(guān)系發(fā)現(xiàn)、熱點(diǎn)預(yù)測、文本分類和自動(dòng)摘要等具體任務(wù)的信息處理技術(shù)?!段谋緮?shù)據(jù)挖掘(第2版)》主 要介紹與文本數(shù)據(jù)挖掘有關(guān)的基本概念、理論模型和實(shí)現(xiàn)算法,包括數(shù)據(jù)預(yù)處理、文本表示、文本分類、文本聚類、主題模型、情感分析與觀點(diǎn)挖掘、話題檢測與跟蹤、信息抽取以及文本自動(dòng)摘要等,后通過 具體實(shí)例展示相關(guān)技術(shù)在實(shí)際應(yīng)用中的使用方法?!段谋緮?shù)據(jù)挖掘(第2版)》書可作為高等院校計(jì)算機(jī)、自動(dòng)化、網(wǎng)絡(luò)安全、大數(shù)據(jù)分析等專業(yè),以及利用到文本信息處理的交 叉學(xué)科(如金融財(cái)經(jīng)、社會(huì)人文、生物醫(yī)藥等)的高年級本科生或研究生從事相關(guān)研究的入門參考書,也可供相關(guān)技術(shù)研發(fā)人員閱讀和參考。

作者簡介

  宗成慶,中國科學(xué)院自動(dòng)化所研究員、博士生導(dǎo)師,中國科學(xué)院大學(xué)崗位教授,ACL/CAAI/CCF Fellow,主要從事自然語言處理、機(jī)器翻譯和語言認(rèn)知計(jì)算等研究,主持國家項(xiàng)目10余項(xiàng),發(fā)表論文200余篇,出版《統(tǒng)計(jì)自然語言處理》、《文本數(shù)據(jù)挖掘》和Text Data Mining三部專著及兩部譯著。擔(dān)任國際計(jì)算語言學(xué)委員會(huì)(ICCL)委員,中國中文信息學(xué)會(huì)副理事長,曾任亞洲自然語言處理學(xué)會(huì)(AFNLP)主席,國際一流學(xué)術(shù)會(huì)議ACL’2015和COLING’2020程序委員會(huì)主席、ACL’2021大會(huì)主席。榮獲國家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)和多個(gè)省部級及國家一級學(xué)會(huì)的科技獎(jiǎng)勵(lì),獲得北京市優(yōu)秀教師、中科院優(yōu)秀導(dǎo)師和國科大李佩教學(xué)名師等若干榮譽(yù)。享受國務(wù)院特殊津貼。張家俊,中國科學(xué)院自動(dòng)化研究所研究員、中國科學(xué)院大學(xué)崗位教授、博士生導(dǎo)師,主要研究方向?yàn)闄C(jī)器翻譯和自然語言處理,獲得國家優(yōu)秀青年科學(xué)基金資助,入選中國科協(xié)首屆青年人才托舉工程、中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)優(yōu)秀會(huì)員和北京智源青年科學(xué)家。發(fā)表CCF-A/B類論文80余篇,出版學(xué)術(shù)專著2部,譯著1部。獲得中國中文信息學(xué)會(huì)錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、青年創(chuàng)新獎(jiǎng)一等獎(jiǎng)和2020年北京市科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)等。擔(dān)任中國中文信息學(xué)會(huì)青年工作委員會(huì)主任和機(jī)器翻譯專委會(huì)副主任。擔(dān)任ACL/EMNLP/COLING的(資深)領(lǐng)域主席和《自動(dòng)化學(xué)報(bào)》等期刊的編委。夏睿,南京理工大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師,研究領(lǐng)域?yàn)槿斯ぶ悄?、自然語言處理、文本數(shù)據(jù)挖掘,在國內(nèi)外重要期刊和會(huì)議發(fā)表論文60余篇,出版學(xué)術(shù)專著2部,主持國家和省部級項(xiàng)目近10項(xiàng),獲得國際計(jì)算語言學(xué)會(huì)年會(huì)ACL2019杰出論文獎(jiǎng)、中國中文信息學(xué)會(huì)青年創(chuàng)新獎(jiǎng)一等獎(jiǎng)等榮譽(yù),獲得江蘇省杰出青年基金資助。

圖書目錄


第 1章緒論 1 
11基本概念 1 
12文本挖掘任務(wù) 2 
13文本挖掘面臨的困難 5 
14方法概述與本書的內(nèi)容組織 8 
15進(jìn)一步閱讀  10
習(xí)題  11
第 2章數(shù)據(jù)預(yù)處理和標(biāo)注  12 
21概述  12 
22數(shù)據(jù)獲取  12 
23數(shù)據(jù)預(yù)處理  16 
24數(shù)據(jù)標(biāo)注  18 
25基本工具  20 
251漢語自動(dòng)分詞與詞性標(biāo)注  20 
252句法分析  22 
253 n元語法模型  23 
26進(jìn)一步閱讀  24
習(xí)題  24
第 3章文本表示  25 
31概述  25 
32向量空間模型  25 
321向量空間模型的基本概念  25 
322特征項(xiàng)的構(gòu)造與權(quán)重  26 
323文本長度規(guī)范化  27 
324特征工程  28 
325其他文本表示方法  30 
33詞的分布式表示  31 
文本數(shù)據(jù)挖掘 (第 2版) 
331神經(jīng)網(wǎng)絡(luò)語言模型  32 
332 C&W模型  36 
333 CBOW與 Skip-gram模型  38 
334噪聲對比估計(jì)與負(fù)采樣  39 
335字詞混合的分布式表示方法  41 
34短語的分布式表示  43 
341基于詞袋的分布式表示  43 
342基于自動(dòng)編碼器的分布式表示  43 
35句子的分布式表示  46 
351通用的句子表示  46 
352任務(wù)相關(guān)的句子表示  49 
36文檔的分布式表示  52 
361通用的文檔分布式表示  53 
362任務(wù)相關(guān)的文檔分布式表示  55 
37進(jìn)一步閱讀  56
習(xí)題  57
第 4章預(yù)訓(xùn)練語言模型  58 
41概述  58 
42 ELMo:源自語言模型的語境化分布式向量表示  58 
421基于雙向 LSTM的語言模型  59 
422適應(yīng)下游任務(wù)的語境化 ELMo詞向量  60 
43 GPT:生成式預(yù)訓(xùn)練模型  61 
431 Transformer62 
432 GPT預(yù)訓(xùn)練  63 
433 GPT微調(diào)  64 
44 BERT:雙向 Transformer編碼表示  65 
441 BERT預(yù)訓(xùn)練  66 
442 BERT微調(diào)  68 
443 XLNet:廣義自回歸預(yù)訓(xùn)練模型  68 
444 UniLM  71 
45進(jìn)一步閱讀  72
習(xí)題  72
第 5章文本分類  74 
51概述  74 
52傳統(tǒng)文本表示  75 
目錄 XI 
53特征選擇  76 
531互信息法  76 
532信息增益法  79 
533卡方統(tǒng)計(jì)量法  80 
534其他方法  81 
54傳統(tǒng)分類算法  82 
541樸素貝葉斯模型  82 
542 logistic回歸、 softmax回歸與熵模型  84 
543支持向量機(jī)  86 
544集成學(xué)習(xí)  88 
55深度神經(jīng)網(wǎng)絡(luò)方法  89 
551基于前饋神經(jīng)網(wǎng)絡(luò)的文本分類方法  89 
552基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法  89 
553基于循環(huán)神經(jīng)網(wǎng)絡(luò)的文本分類方法  91 
56文本分類性能評估  94 
57進(jìn)一步閱讀  97
習(xí)題  97
第 6章文本聚類  99 
61概述  99 
62文本相似性度量  99 
621樣本間的相似性  100 
622簇間的相似性  102 
623樣本與簇之間的相似性  103 
63文本聚類算法  103 
631 K-均值聚類  103 
632單遍聚類  107 
633層次聚類  108 
634密度聚類  111 
64性能評估  113 
641外部標(biāo)準(zhǔn)  113 
642內(nèi)部標(biāo)準(zhǔn)  115 
65進(jìn)一步閱讀  115
習(xí)題  116
第 7章主題模型  117 
71概述  117 
文本數(shù)據(jù)挖掘 (第 2版) 
72潛在語義分析  118 
721詞項(xiàng)-文檔矩陣的奇異值分解  118 
722詞項(xiàng)和文檔的概念表示及相似度計(jì)算  121 
73概率潛在語義分析  123 
731模型假設(shè)  123 
732參數(shù)學(xué)習(xí)  124 
74潛在狄利克雷分布  125 
741模型假設(shè)  125 
742詞項(xiàng)和主題序列的聯(lián)合概率  127 
743模型推斷  129 
744新文檔的推斷  131 
745 PLSA與 LDA的聯(lián)系與區(qū)別  132 
75進(jìn)一步閱讀  132
習(xí)題  133
第 8章情感分析與觀點(diǎn)挖掘  135 
81概述  135 
82情感分析任務(wù)類型  136 
821按目標(biāo)形式劃分  136 
822按分析粒度劃分  137 
83文檔或句子級情感分析方法  139 
831基于規(guī)則的無監(jiān)督情感分類  140 
832基于傳統(tǒng)機(jī)器學(xué)習(xí)的監(jiān)督情感分類  141 
833深度神經(jīng)網(wǎng)絡(luò)方法  144 
84詞語級情感分析與情感詞典構(gòu)建  146 
841基于語義知識庫的方法  147 
842基于語料庫的方法  147 
843情感詞典性能評估  149 
85屬性級情感分析  150 
851屬性抽取  150 
852屬性情感分類  153 
853主題與情感的生成式建模  157 
86情感分析中的特殊問題  159 
861情感極性轉(zhuǎn)移問題  159 
862領(lǐng)域適應(yīng)問題  160 
87文本情緒分析  163 
871心理學(xué)情緒理論  163 
目錄 XIII 
872文本情緒識別  163 
873情緒原因挖掘  165 
88進(jìn)一步閱讀  167
習(xí)題  168
第 9章話題檢測與跟蹤 170 
91概述  170 
92術(shù)語與任務(wù)  172 
921術(shù)語  172 
922任務(wù)  173 
93報(bào)道或話題的表示與相似性計(jì)算  175 
94話題檢測  177 
941話題在線檢測  177 
942話題回溯檢測  179 
95話題跟蹤  179 
96評估方法  181 
97社交媒體話題檢測與跟蹤  182 
971社交媒體話題檢測  182 
972社交媒體話題跟蹤  184 
98突發(fā)話題檢測  184 
981突發(fā)狀態(tài)識別  185 
982以文檔為中心的方法  187 
983以特征為中心的方法  188 
99進(jìn)一步閱讀  190
習(xí)題  190
第 10章信息抽取 191 
101概述  191 
102命名實(shí)體識別  193 
1021基于規(guī)則的命名實(shí)體識別方法  194 
1022基于有監(jiān)督學(xué)習(xí)的命名實(shí)體識別方法  195 
1023半監(jiān)督的命名實(shí)體識別方法  201 
1024命名實(shí)體識別方法評價(jià)  203 
103共指消解  204 
1031基于規(guī)則的共指消解方法  205 
1032數(shù)據(jù)驅(qū)動(dòng)的共指消解方法  207 
1033共指消解評價(jià)  210 
文本數(shù)據(jù)挖掘 (第 2版) 
104實(shí)體消歧  213 
1041基于聚類的實(shí)體消歧方法  213 
1042基于鏈接的實(shí)體消歧  217 
1043實(shí)體消歧任務(wù)的評價(jià)方法  223 
105關(guān)系抽取  224 
1051基于離散特征的關(guān)系分類方法  226 
1052基于分布式特征的關(guān)系分類方法  232 
1053基于遠(yuǎn)程監(jiān)督的關(guān)系分類方法  234 
1054關(guān)系分類性能評價(jià)  235 
1055知識圖譜  235 
106事件抽取  236 
1061事件描述模板  236 
1062事件抽取方法  238 
1063事件抽取評價(jià)  245 
1064事理圖譜  245 
107進(jìn)一步閱讀  246
習(xí)題  247
第 11章文本自動(dòng)摘要  248 
111概述  248 
112抽取式自動(dòng)摘要  249 
1121句子重要性評估  250 
1122基于約束的摘要生成方法  258 
113壓縮式自動(dòng)摘要方法  259 
1131句子壓縮方法  259 
1132基于句子壓縮的自動(dòng)摘要方法  263 
114理解式自動(dòng)摘要  265 
1141基于信息融合的生成式摘要方法  265 
1142基于編碼-解碼的生成式摘要方法  270 
115基于查詢的自動(dòng)摘要  272 
1151基于語言模型的相關(guān)性計(jì)算方法  272 
1152基于關(guān)鍵詞語重合度的相關(guān)性計(jì)算方法  273 
1153基于圖模型的相關(guān)性計(jì)算方法  273 
116跨語言和多語言自動(dòng)摘要方法  274 
1161跨語言自動(dòng)摘要  274 
1162多語言自動(dòng)摘要  277 
目錄 XV 
117摘要質(zhì)量評估方法和相關(guān)評測  279 
1171摘要質(zhì)量評估方法  279 
1172相關(guān)評測活動(dòng)  283 
118進(jìn)一步閱讀  285
習(xí)題  285
第 12章技術(shù)應(yīng)用  288 
121概述  288 
122電子病歷分析與挖掘系統(tǒng)  289 
1221任務(wù)目標(biāo)  289 
1222數(shù)據(jù)準(zhǔn)備和標(biāo)注  290 
1223系統(tǒng)實(shí)現(xiàn)  292 
123多語言政策法規(guī)分析與挖掘系統(tǒng)  300 
1231任務(wù)目標(biāo)  300 
1232數(shù)據(jù)采集和標(biāo)注  301 
1233系統(tǒng)實(shí)現(xiàn)  302
習(xí)題  302
參考文獻(xiàn)  303
名詞術(shù)語索引  327 
 
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號