數(shù)據歸約是數(shù)據挖掘過程的關鍵環(huán)節(jié),因此對數(shù)據歸約技術的研究具有重要的意義。當前已有的數(shù)據歸約方法多偏重于有監(jiān)督學習,而無監(jiān)督情形下歸約方法的研究還相對不夠豐富。鑒于這種情況,劉云霞編著的《數(shù)據預處理——數(shù)據歸約的統(tǒng)計方法研究及應用》的重點內容是嘗試對無監(jiān)督數(shù)據歸約的統(tǒng)計方法及其應用進行研究。在《數(shù)據預處理——數(shù)據歸約的統(tǒng)計方法研究及應用》第一章中,首先闡述了選題的研究背景和研究意義。之后,在概述相關背景知識和總結國內外數(shù)據歸約研究方法現(xiàn)狀的基礎上,明確了本書的研究內容及創(chuàng)新之處。數(shù)據歸約兩項重要的基礎工作——缺失值填補和異常值探測是第二章探討的內容。在本章,根據對統(tǒng)計學中常用的各種缺失值填補和異常值探測方法的分析,總結出了一些適合數(shù)據挖掘使用的方法。此外,通過將幾種異常值探測方法應用在某地區(qū)移動通信用戶繳費數(shù)據庫上,對手機用戶的消費行為進行了實證分析。數(shù)據歸約包括元組的歸約和屬性的歸約。本書在第三章探討了元組歸約的兩種主要方法——連續(xù)屬性離散化和概念分層。在對當前的離散化方法和概念分層中面向屬性歸納方法綜述的基礎上,提出了兩種從獨立性角度考慮的連續(xù)屬性離散化方法,分別是基于可辨識矩陣的離散化方法和基于似然比假設檢驗的離散化方法。并通過在Iris樣本集上對這兩種方法進行模擬,驗證了它們的有效性。屬性重要性排序以及屬性的提取和屬性子集的選擇是屬性歸約的兩類方法。本書在第四章探討了屬性重要性的排序問題。數(shù)據挖掘中目前常見的排序問題是有監(jiān)督屬性的排序,本章首先對它們作了介紹和比較。然后在無監(jiān)督屬性重要性的排序方面,提出了單向有序列聯(lián)資料的屬性排序方法——改進秩和法和基于因子分析的無監(jiān)督屬性排序方法,這兩種方法分別在一份調查問卷的列聯(lián)資料和全國居民人均消費支出樣本集的模擬中,取得了較為滿意的結果。第五章探討的是屬性的提取和屬性子集的選擇問題。首先對目前在數(shù)據挖掘中用于屬性線性提取的幾種統(tǒng)計學和其他學科的方法作了介紹和評價。然后是本章的重點內容——屬性子集的選擇,在對屬性子集選擇的基本知識及目前已有的研究成果詳細闡述和分析之后,提出了逐步向前的無監(jiān)督屬性選擇方法,并通過實例驗證了該方法的有效性。第六章對全書的主要工作進行了總結,并指出了有待進一步改進和完善的地方。本書的創(chuàng)新之處主要有以下四個方面:(1)提出了分別基于可辨識矩陣和基于似然比假設檢驗的兩種連續(xù)屬性離散化方法。(2)提出了單向有序列聯(lián)資料屬性排序的方法——改進秩和法。(3)提出了基于因子分析的無監(jiān)督屬性重要性的排序方法。(4)提出了逐步向前的無監(jiān)督屬性選擇方法。