這是一部指導讀者如何將軟件工程的思想、方法、工具和策略應用到機器學習實踐中的著作。 作者融合了自己10年的工程實踐經驗,以Python為工具,詳細闡述機器學習核心概念、原理和實現,并提供了數據分析和處理、特征選擇、模型調參和大規(guī)模模型上線系統(tǒng)架構等多個高質量源碼包和工業(yè)應用框架,旨在幫助讀者提高代碼的設計質量和機器學習項目的工程效率。 全書共16章,分為4個部分:第一部分 工程基礎篇(1~3章) 介紹了機器學習和軟件工程的融合,涉及理論、方法、工程化的數據科學環(huán)境和數據準備; 第二部分 機器學習基礎篇(4、5章) 講述了機器學習建模流程、核心概念,數據分析方法; 第三部分 特征篇(6~8章) 詳細介紹了多種特征離散化方法和實現、特征自動衍生工具和自動化的特征選擇原理與實現; 第四部分 模型篇(9~16章) 首先,深入地剖析了線性模型、樹模型和集成模型的原理,以及模型調參方法、自動調參、模型性能評估和模型解釋等;然后,通過5種工程化的模型上線方法講解了模型即服務;最后,講解了模型的穩(wěn)定性監(jiān)控的方法與實現,這是機器學習項目的最后一環(huán)。