第1章 入門 11.1 打開大數據之門 11.2 接觸大數據 21.3 數據初探索 41.4 進一步分析 101.5 訓練和預測 17第2章 簡介 232.1 主界面介紹 232.1.1 工具欄 242.1.2 數據列表 262.1.3 窗口管理器 282.1.4 工作界面 282.2 數據查看、運行 292.2.1 文本顯示 312.2.2 復制部分數據 312.2.3 顯示/隱藏列 322.3 腳本編輯、運行 332.4 如何獲得幫助信息 372.4.1 查看幫助手冊 372.4.2 界面上的幫助信息 382.4.3 腳本函數的幫助信息 402.5 執(zhí)行SQL語句 44第3章 全球機場信息 463.1 數據可視化 473.2 統(tǒng)計分析 583.3 大中型機場的分析 623.4 海拔高度排行 643.5 數據的關聯(lián)關系 68第4章 股票價格 734.1 數據處理 744.2 數據探索 784.3 數據展開 814.3.1 組合使用基本函數進行變換 834.3.2 利用專門函數一步到位 844.4 各股趨勢比較 854.5 總體趨勢 87第5章 標準普爾500指數 915.1 數據類型轉換 925.2 各指標間的線性關系 935.3 按時間變化趨勢 965.4 數據對比 100第6章 鳶尾花數據集 1076.1 屬性間的關系 1086.2 聚類 1106.2.1 K-Means聚類 1116.2.2 EM聚類 1206.3 二分類數據子集 1246.3.1 使用訓練、預測窗體 1256.3.2 調用訓練、預測腳本 131第7章 MovieLens數據集 1367.1 數據變換 1377.2 統(tǒng)計 1387.3 排行榜 1457.4 分類排行榜 1477.5 影片關聯(lián)分析 1497.6 屬性擴展 157第8章 汽車評價數據集 1618.1 數據圖示化 1628.2 對比分析 1658.3 決策樹 169第9章 Twitter數據 1749.1 用戶信息分析 1759.2 用戶粉絲數量的情況 1849.3 粉絲的情況 1929.4 “粉”與“被粉” 1979.5 信息傳播速度 2049.6 哪些用戶更重要 2089.6.1 粉絲最多的用戶 2099.6.2 用戶排名 211第10章 隨機數據 21510.1 數據生成 21510.2 計算π值 21710.3 中心極限定理 222第11章 新浪網頁數據 23011.1 分詞 23211.2 有區(qū)分度的單詞 23411.3 選擇特征 23511.3.1 卡方檢驗 23611.3.2 信息增益 23811.4 主題模型 24211.4.1 潛在語義分析 24211.4.2 概率潛在語義分析 25311.4.3 LDA模型 27211.5 單詞映射為向量 289第12章 2014年阿里巴巴大數據競賽 29412.1 試題介紹 29412.2 數據 29612.3 思路 29812.3.1 用戶和品牌的各種特征 29812.3.2 二分類模型訓練 30012.3.3 比賽考核目標 30112.4 計算訓練數據集 30212.4.1 原始數據劃分 30312.4.2 計算特征 30412.4.3 數據預處理標識 30412.4.4 用戶-品牌聯(lián)合特征 30812.4.5 用戶特征 31312.4.6 品牌特征 31712.4.7 整合訓練數據的特征 32212.4.8 計算標簽 32312.5 二分類模型訓練 32412.5.1 正負樣本配比 32412.5.2 樸素貝葉斯算法 32512.5.3 邏輯回歸算法 32612.5.4 隨機森林算法 32712.6 提交預測結果 328