目錄
第1章 Web中文輿情信息挖掘導論 1
1.1 網絡輿情信息挖掘概述 2
1.2 網絡輿情研究現(xiàn)狀 3
1.2.1 網絡輿情的概念、特點與成因 3
1.2.2 網絡輿情的傳播與導控 4
1.2.3 高校網絡輿情研究 4
1.3 數(shù)據(jù)挖掘簡介 5
1.3.1 數(shù)據(jù)挖掘過程 6
1.3.2 數(shù)據(jù)挖掘功能 7
1.3.3 數(shù)據(jù)挖掘應用 8
1.3.4 數(shù)據(jù)挖掘發(fā)展 9
1.4 Web挖掘 10
1.4.1 Web挖掘的分類 11
1.4.2 Web挖掘應用前景 12
1.5 Web文本挖掘 12
1.5.1 Web文本挖掘技術 13
1.5.2 Web文本挖掘過程 14
1.5.3 文本表示和特征抽取 15
1.5.4 Web文檔相似性度量 16
1.5.5 Web文本分類 16
1.5.6 Web文本聚類 17
1.5.7 Web文本關聯(lián)規(guī)則挖掘 18
1.6 網絡輿情信息采集 18
1.6.1 網絡信息搜索發(fā)展簡況 18
1.6.2 網絡信息采集對象 19
1.6.3 信息采集算法 19
1.6.4 網絡爬蟲 20
1.6.5 信息采集工具 22
1.7 文本分詞 23
第2章 網絡輿情信息提取 26
2.1 檢索詞選擇 26
2.2 主題詞遴選 27
2.3 網站鏈接過濾 29
2.3.1 網站鏈接分類 29
2.3.2 鏈接提取 30
2.4 基于模板的網頁正文抽取 30
2.4.1 網頁抽取預處理 31
2.4.2 模板學習 31
2.4.3 正文提取 32
2.5 正文過濾 33
2.5.1 基于詞頻統(tǒng)計的正文過濾 33
2.5.2 主題知識自增長過濾 33
第3章 中文分詞 37
3.1 漢語分詞基本問題 37
3.1.1 分詞規(guī)范問題 37
3.1.2 歧義切分問題 38
3.1.3 未登錄詞問題 39
3.2 漢語分詞方法 42
3.2.1 N*短路徑方法 43
3.2.2 基于詞的n元語法模型的分詞方法 45
3.2.3 由字構詞的漢語分詞方法 48
3.2.4 基于詞感知機算法的漢語分詞方法 49
3.2.5 基于字的生成式模型和區(qū)分式模型相結合的漢語分詞方法 52
3.2.6 其他分詞方法 54
3.2.7 分詞方法比較 54
3.3 命名實體識別 57
3.3.1 方法概述 57
3.3.2 基于CRF的命名實體識別方法 59
3.3.3 基于多特征的命名實體識別方法 61
3.4 詞性標注 68
3.4.1 方法概述 68
3.4.2 基于統(tǒng)計模型的詞性標注方法 69
3.4.3 基于規(guī)則的詞性標注方法 73
3.4.4 統(tǒng)計方法與規(guī)則方法相結合的詞性標注方法 74
3.4.5 詞性標注中的生詞處理方法 76
3.5 詞性標注的一致性檢查與自動校對 77
3.5.1 詞性標注一致性檢查方法 77
3.5.2 詞性標注自動校對方法 79
3.6 關于技術測評 81
第4章 文本語義分析 83
4.1 詞義消歧概述 83
4.2 有監(jiān)督的詞義消歧方法 84
4.2.1 基于互信息的消歧方法 84
4.2.2 基于貝葉斯分類器的消歧方法 85
4.2.3 基于*大熵的詞義消歧方法 87
4.3 基于詞典的詞義消歧方法 87
4.3.1 基于詞典語義定義的消歧方法 88
4.3.2 基于義類詞典的消歧方法 88
4.3.3 基于雙語詞典的消歧方法 89
4.3.4 Yarowsky算法及其相關研究 89
4.4 無監(jiān)督的詞義消歧方法 91
4.5 詞義消歧系統(tǒng)評價 92
4.6 語義角色標注概述 93
4.7 語義角色標注基本方法 94
4.7.1 自動語義角色標注的基本流程 94
4.7.2 基于短語結構樹的語義角色標注方法 95
4.7.3 基于依存關系樹的語義角色標注方法 97
4.7.4 基于語塊的語義角色標注方法 99
4.7.5 語義角色標注的融合方法 100
4.8 語義角色標注的領域適應性問題 102
4.9 雙語聯(lián)合語義角色標注方法 105
4.9.1 基本思路 105
4.9.2 系統(tǒng)實現(xiàn) 106
4.9.3 實驗 109
第5章 文本特征向量表示 114
5.1 基于特征降維的文本特征表示 114
5.2 相關特征加權算法 115
5.3 基于類別信息的特征加權算法 118
第6章 聚類挖掘 122
6.1 聚類挖掘概述 122
6.1.1 主要聚類算法 123
6.1.2 聚類分析研究方向 125
6.1.3 常用聚類策略 126
6.1.4 聚類的一般步驟 127
6.2 基本概念 127
6.2.1 類的定義 127
6.2.2 樣本間距離、類間距離和相關系數(shù) 128
6.2.3 聚類分析中的數(shù)據(jù)類型 129
6.3 基于劃分的聚類挖掘 130
6.3.1 k-means算法 130
6.3.2 模糊C均值算法 132
6.4 基于層次的聚類挖掘 132
6.4.1 BIRCH算法 133
6.4.2 CURE聚類算法 134
6.5 基于密度的聚類挖掘 135
6.6 基于網格的聚類挖掘 136
6.7 基于模型的聚類挖掘 137
6.8 高維海量數(shù)據(jù)的聚類挖掘 138
6.8.1 高維海量數(shù)據(jù)特點 138
6.8.2 高維海量數(shù)據(jù)聚類算法 139
6.9 基于蟻群算法的聚類挖掘 145
6.9.1 蟻群算法特征 147
6.9.2 蟻群算法的研究熱點 148
6.9.3 基于蟻穴清理行為的聚類算法 150
6.9.4 基于蟻群覓食行為的聚類算法 152
6.9.5 粒子群優(yōu)化算法 153
6.9.6 蟻群算法分析 154
6.10 文本特征詞加權 155
6.11 主成分分析 155
6.12 分析文本聚類 156
6.12.1 粒子群密度聚類 156
6.12.2 基于模糊矩陣的蟻群聚類 157
6.13 本章小結 160
第7章 文本輿情傾向性分析及發(fā)現(xiàn) 162
7.1 文本傾向性分析 162
7.1.1 詞語語義傾向性判別 162
7.1.2 詞語的上下文傾向性判別 163
7.1.3 段落文本傾向性分析 164
7.2 輿情關鍵點發(fā)現(xiàn) 165
參考文獻 168
附錄 179