第1章 概述\t1
1.1 網絡運營與文本分析\t1
1.1.1 互聯(lián)網運營的戰(zhàn)略思維\t1
1.1.2 網絡運營與大數(shù)據文本分析\t2
1.2 文本分析的4V特征\t4
1.2.1 Volume特征\t4
1.2.2 Variety特征\t5
1.2.3 Value特征\t6
1.2.4 Velocity特征\t7
1.3 在線文本分析應用\t8
1.3.1 在線文本分析的管理類應用\t9
1.3.2 在線文本分析的內容類應用\t12
1.4 本章小結\t16
第2章 預備知識\t18
2.1 文本挖掘的主要任務\t18
2.2 語義分析與語法分析\t20
2.3 文本的結構化分析\t21
2.4 文本的標準化分析\t24
2.5 機器學習的基本概念\t24
2.5.1 機器學習與深度學習\t25
2.5.2 機器學習的基本要素\t33
2.6 機器學習的重要問題\t36
2.6.1 概率圖模型\t36
2.6.2 判別式模型和產生式模型\t39
2.6.3 機器學習模型求解\t40
2.6.4 模型過擬合\t43
2.7 本章小結\t45
第3章 文本建模\t46
3.1 文本建模的基本概念\t46
3.2 文本建模的應用場景\t48
3.2.1 主體角色識別\t48
3.2.2 語言風格分析\t49
3.2.3 智能系統(tǒng)\t49
3.2.4 文本表示\t50
3.2.5 文本降維\t50
3.2.6 話題分析\t50
3.3 語言學建模概述\t51
3.4 詞標注分析\t52
3.5 句法分析\t55
3.5.1 轉換生成語法\t56
3.5.2 依存句法\t56
3.6 知識庫與語義網\t58
3.7 統(tǒng)計學建模概述\t59
3.8 向量空間模型\t61
3.9 LSI模型\t64
3.9.1 SVD\t64
3.9.2 基于SVD的降維分析\t66
3.10 Unigram模型\t67
3.11 pLSI模型\t67
3.11.1 pLSI的模型結構\t67
3.11.2 pLSI的參數(shù)估計\t68
3.12 LDA主題模型\t70
3.12.1 LDA的模型結構\t70
3.12.2 LDA的參數(shù)估計\t72
3.13 主題模型拓展\t75
3.13.1 相關主題模型\t76
3.13.2 層次主題模型\t77
3.13.3 動態(tài)主題模型\t80
3.13.4 句子主題模型\t82
3.14 基于詞匯的統(tǒng)計學建模方法\t83
3.15 本章小結\t86
第4章 文本分類\t88
4.1 文本分類的基本概念\t88
4.2 文本分類的應用場景\t89
4.2.1 文檔有用性判斷\t89
4.2.2 口碑情感分析\t90
4.2.3 負面信息識別\t90
4.2.4 信息檢索\t90
4.3 樸素貝葉斯模型\t91
4.3.1 貝努利模型\t91
4.3.2 多項式模型\t93
4.3.3 模型參數(shù)平滑\t94
4.4 向量空間模型\t95
4.4.1 Rocchio方法\t95
4.4.2 KNN方法\t96
4.5 SVM模型\t97
4.5.1 硬間隔SVM\t97
4.5.2 軟間隔SVM\t100
4.6 文本分類的評價\t102
4.6.1 二元分類評價\t102
4.6.2 多類問題評價\t104
4.6.3 分類測試集\t105
4.7 分類特征優(yōu)化\t106
4.7.1 分類特征提取\t106
4.7.2 分類特征轉化\t112
4.7.3 分類特征擴展\t114
4.8 分類學習策略優(yōu)化\t117
4.8.1 AdaBoost算法\t117
4.8.2 主動式學習\t118
4.8.3 遷移學習\t119
4.9 本章小結\t119
第5章 文本聚類\t121
5.1 文本聚類的基本概念\t121
5.2 文本聚類的應用場景\t122
5.2.1 探索分析\t122
5.2.2 降維\t123
5.2.3 信息檢索\t123
5.3 扁平式聚類\t124
5.3.1 K-均值算法\t125
5.3.2 基于模型的聚類\t128
5.4 凝聚式聚類\t132
5.4.1 層次聚類\t132
5.4.2 基于簇距離的聚類過程\t132
5.4.3 算法停止條件\t135
5.5 聚類結果分析\t136
5.5.1 聚類算法評估\t136
5.5.2 聚類標簽生成\t138
5.6 聚類特征優(yōu)化\t140
5.6.1 基于迭代的方法\t141
5.6.2 無監(jiān)督指標\t141
5.7 半監(jiān)督聚類\t143
5.7.1 遷移學習\t144
5.7.2 AP算法\t145
5.8 短文本聚類\t146
5.8.1 文本特征補充\t146
5.8.2 TermCut算法\t148
5.8.3 Dirichlet多項式混合模型\t149
5.9 流數(shù)據聚類\t151
5.9.1 OSKM算法\t151
5.9.2 可拓展K-means算法\t152
5.10 本章小結\t153
第6章 序列標注\t155
6.1 序列標注的基本概念\t155
6.2 序列標注的應用場景\t157
6.2.1 詞性標注\t157
6.2.2 命名實體識別\t157
6.2.3 分詞\t157
6.3 HMM\t158
6.3.1 HMM的概率計算問題\t160
6.3.2 HMM的學習問題\t162
6.2.3 HMM的預測問題\t164
6.4 最大熵模型和最大熵馬爾可夫模型\t166
6.4.1 最大熵模型\t167
6.4.2 最大熵馬爾可夫模型\t170
6.5 條件隨機場\t172
6.5.1 標注偏置問題\t172
6.5.2 條件隨機場的基本原理\t174
6.6 本章小結\t176
第7章 信息檢索\t177
7.1 信息檢索的基本概念\t177
7.2 信息檢索的應用場景\t180
7.2.1 搜索引擎\t180
7.2.2 內容推薦\t182
7.3 基于空間模型的信息檢索\t184
7.3.1 文檔查找\t184
7.3.2 文檔排序\t185
7.3.3 系統(tǒng)評價\t187
7.4 基于概率模型的信息檢索\t190
7.4.1 二值獨立模型\t191
7.4.2 模型參數(shù)估計\t193
7.5 基于語言模型的信息檢索\t196
7.5.1 語言模型\t196
7.5.2 查詢似然模型\t198
7.6 本章小結\t201
第8章 文本摘要\t203
8.1 文本摘要的基本概念\t203
8.2 文本摘要的應用場景\t206
8.2.1 信息檢索\t206
8.2.2 信息壓縮\t207
8.2.3 用戶畫像\t208
8.2.4 知識管理\t209
8.3 關鍵詞提取的特征設計\t210
8.3.1 詞頻特征\t210
8.3.2 詞匯基礎特征\t211
8.3.3 詞匯位置特征\t212
8.3.4 詞匯標記特征\t214
8.4 關鍵詞提取的有監(jiān)督算法\t214
8.5 關鍵詞提取的無監(jiān)督算法\t217
8.5.1 簡單指標設計\t217
8.5.2 復合指標設計\t217
8.6 基于圖模型的關鍵詞提取算法\t218
8.6.1 圖模型靜態(tài)指標算法\t220
8.6.2 圖模型動態(tài)指標算法\t223
8.7 關鍵詞提取的技術優(yōu)化\t226
8.7.1 長文本問題優(yōu)化\t227
8.7.2 短文本問題優(yōu)化\t228
8.7.3 多主題特征優(yōu)化\t229
8.7.4 時序特征優(yōu)化\t232
8.7.5 歧義問題優(yōu)化\t233
8.8 關鍵短語提取\t234
8.8.1 短語性指標\t235
8.8.2 信息性指標\t235
8.9 關鍵句提取\t236
8.9.1 基于詞匯關鍵性的方法\t236
8.9.2 基于句子特征的方法\t237
8.9.3 基于圖模型的方法\t238
8.10 本章小結\t240
第9章 口碑分析\t241
9.1 口碑分析的基本概念\t242
9.2 口碑分析的應用場景\t243
9.2.1 用戶視角的應用\t243
9.2.2 網站運營者視角的應用\t244
9.2.3 商家視角的應用\t244
9.2.4 其他應用\t245
9.3 基于詞典的評價對象提取\t245
9.4 基于語料的評價對象提取\t246
9.5 評價水平量化\t252
9.5.1 整體粗粒度情感分析\t253
9.5.2 整體細粒度情感分析\t254
9.5.3 局部粗粒度情感分析\t258
9.5.4 局部細粒度情感分析\t259
9.6 基于語言模型的情感分析技術\t259
9.6.1 最大熵LDA主題模型:模型性質\t260
9.6.2 最大熵LDA主題模型:基本結構\t260
9.6.3 最大熵LDA主題模型:參數(shù)估計\t263
9.7 本章小結\t265
第10章 社交網絡分析\t266
10.1 社交網絡分析的基本概念\t266
10.2 社交網絡分析的應用場景\t269
10.2.1 虛擬社區(qū)發(fā)現(xiàn)\t270
10.2.2 用戶影響力分析\t271
10.2.3 情感分析\t271
10.2.4 話題發(fā)現(xiàn)與演化\t272
10.2.5 信息檢索\t273
10.3 社交網絡的虛擬社區(qū)發(fā)現(xiàn)\t274
10.3.1 社區(qū)發(fā)現(xiàn)的信息基礎\t274
10.3.2 基于隱性位置的聚類模型\t275
10.4 社交網絡的用戶影響力分析\t276
10.4.1 網絡結構與用戶影響力\t276
10.4.2 TwitterRank算法\t277
10.5 社交網絡的情感分析\t279
10.5.1 基于表情符號的訓練集合構建\t279
10.5.2 基于POSTag的特征優(yōu)化\t280
10.6 社交網絡的話題發(fā)現(xiàn)與演化\t282
10.6.1 話題發(fā)現(xiàn)分析\t282
10.6.2 Twitter-LDA\t284
10.6.3 基于文檔聚類的話題發(fā)現(xiàn)\t284
10.6.4 基于詞匯聚類的話題發(fā)現(xiàn)\t286
10.6.5 話題演化分析\t287
10.6.6 基于NMF的主題建模\t287
10.7 社交網絡的信息檢索\t289
10.7.1 信息檢索的內容拓展策略\t290
10.7.2 信息檢索的綜合排序策略\t291
10.8 本章小結\t293
第11章 深度學習與NLP\t295
11.1 基本原理\t296
11.2 詞嵌入模型\t299
11.2.1 詞匯的分布式表示\t299
11.2.2 神經概率語言模型\t300
11.2.3 詞嵌入模型概述\t301
11.3 RNN與NLP\t304
11.3.1 RNN\t304
11.3.2 基于RNN的機器翻譯\t305
11.3.3 RNN的其他應用\t308
11.4 本章小結\t309
第12章 實證研究\t311
12.1 研究框架\t311
12.1.1 研究問題背景\t311
12.1.2 問題分析\t313
12.2 理論與模型\t314
12.2.1 相關理論與假設\t314
12.2.2 模型構建\t317
12.3 文本數(shù)據處理\t319
12.3.1 基于文本分析的口碑打分調整\t319
12.3.2 基于文本分析的口碑權重計算\t323
12.3.3 基于文本分析的候選集合構建\t324
12.4 研究結論\t326
12.4.1 實證結果\t326
12.4.2 管理建議\t328
12.5 本章小結\t329
第13章 總結\t330