本書首先介紹如何設置基本的數據科學工具箱,然后帶你進入數據改寫和預處理階段,這一部分主要是闡明所有與核心數據科學活動相關的數據分析過程,如數據加載、轉換、修復以及數據探索和處理等。通過主要的機器學習算法、圖形分析技術,以及所有易于表現結果的可視化工具,實現對數據科學的概述。 本書對上一版內容進行了全面拓展和更新,涵蓋新版的Jupyter Notebook、NumPy、pandas和Scikit-learn等的新改進。此外,還介紹了深度學習(借助在Theano和Tensorflow平臺上運行的Keras庫)、漂亮的可視化(使用Seaborn和 ggplot)和Web部署(使用bottle)等新內容。 本書行文過程以數據科學項目為主體,輔以整潔的代碼和簡化的示例,能幫助你理解與項目相關的潛在原理和實際數據集。