這種方法主要是將觀測結果按概率分成幾種類型(bin)。因此,屬於同壹類的觀測值具有相似的概率。
對於每壹類,校準曲線都會預測該類的平均值,然後將預測概率的平均值與理論平均值(即觀察到的目標變量的平均值)進行比較。
您只需要確定以下兩者之間的類別數量和分類策略:
1,“均勻”,壹個0-1的區間分為n_bins類,所有類的寬度相同。
2.“分位數”,定義了類的邊,使每個類都有相同數量的觀測值。
假設您的模型具有良好的準確性,校準曲線將單調增加。但這並不意味著模型已經被正確校準。其實妳的模型只有在標定曲線非常接近平分線(也就是下圖的灰色虛線)的時候才能很好的標定,因為這將意味著預測概率基本接近理論概率。
如何解決python繪圖預測模型中的標定誤差:
假設妳訓練了壹個分類器,它會產生精確但未經校準的概率。概率校準的思路是建立第二個模型(稱為校準器),可以把妳訓練的分類器“校準”成實際概率。
因此,校準包括將壹個壹維向量(未校準的概率)轉換成另壹個壹維向量(校準的概率)的功能。
兩種方法常用作校準品:
1.保序回歸:壹種非參數算法,將非遞減的自由形式線擬合到數據。行數不會減少這壹事實很重要,因為它遵循原始順序。
2.Logistic回歸:預測概率有三種選擇:普通隨機森林、隨機森林+保序回歸、隨機森林+logistic回歸。