1.刪除缺少值的案例。
主要有簡單刪除法和權重法。簡單刪除是處理缺失值最原始的方法。它將刪除缺少值的案例。如果缺失數據的問題可以通過簡單地刪除少量樣本來實現,那麽這種方法是最有效的。當缺失值的類型為不完全隨機缺失時,可以通過對完全數據進行加權來減小偏差。
對數據不完整的案例進行標記後,對數據完整的案例賦予不同的權重,案例的權重可以通過logistic或probit回歸得到。如果決定權重估計線因子的解釋變量中存在變量,這種方法可以有效地減小偏差。如果解釋變量和權重不相關,它不能減少偏差。
在多個屬性缺失的情況下,需要對不同屬性的缺失組合賦予不同的權重,這將大大增加計算的難度,降低預測的準確性。這時候重量法就不理想了。
2.缺失值由可能的值進行插值。
其思想來源是,用最可能的值來插值缺失值,會比刪除所有不完整樣本造成更少的信息損失。
在數據挖掘中,我們通常會面對壹個擁有幾十甚至上百個屬性的大型數據庫。因為少了壹個屬性值,我們放棄了很多其他屬性值。這種刪除是對信息的極大浪費,於是產生了用可能值內插缺失值的思想和方法。常用的方法如下。
(1)平均插值。數據的屬性分為定距型和非定距型。如果缺失值屬於固定距離類型,則缺失值由屬性的現有值的平均值進行插值;如果缺失值為非定距,則根據統計學中的眾數原則,用屬性的眾數(即出現頻率最高的值)來補充缺失值。
(2)使用相似均值插值。同樣的均值插值方法也屬於單值插值,但不同的是,它使用層次聚類模型來預測缺失變量的類型,然後用該類型的均值進行插值。假設X=(X1,X2…Xp)是具有完全信息的變量,Y是具有缺失值的變量,首先對X或其子集進行聚類,然後根據缺失案例所屬的類別對不同類別的平均值進行插值。
如果引入的解釋變量和Y需要在以後的統計分析中進行分析,這種插值方法會在模型中引入自相關,對分析造成障礙。
(3)極大似然估計。在缺失類型為隨機的條件下,假設模型對完全樣本是正確的,則可以通過觀測數據的邊際分布用極大似然估計未知參數。這種方法也叫忽略缺失值的最大似然估計,最大似然參數估計常用的計算方法是期望最大化。
這種方法比刪除案例和單值插值更有吸引力,它有壹個重要的前提:適合大樣本。有效樣本的數量足以保證最大似然估計是漸近無偏的,並且服從正態分布。但是這種方法可能會陷入局部極值,收斂速度不是很快,計算非常復雜。
(4)多重插補。多值插值的思想來源於貝葉斯估計,認為待插值的值是隨機的,其值來自於觀測值。實際中,通常是先估計出要插值的值,然後加入不同的噪聲,形成多組可選的插值值。根據壹些選擇依據,選擇最合適的插值值。