當前位置:商標查詢大全網 - 彩票開獎 - python 離散型數據怎麽量化

python 離散型數據怎麽量化

python 離散型數據量化的方法可以采用變量轉換方法來解決,分類數據和連續數據需要參與模型計算,並且通常會轉換為數值數據。

當然,某些算法允許這些數據直接參與計算,例如分類算法中的決策樹和關聯規則。將非數字數據轉換為數字數據的最佳方法是將所有類別或有序變量的範圍從壹列多值形式轉換為僅包含真值的多列。可以將True值傳遞給True,False或0、1。這種符號轉換方法有時稱為真值轉換。

具體代碼是:

import pandas as pddata = [.

['yellow', 'S', 10.1, 'class1'].

['red', 'M', 13.5, 'class1'].

['red', 'M', 15.1, 'class2'].

['blue', 'XL', 15.3, 'class2'.

df = pd.DataFrame(.

data,columns=['color', 'size', 'prize', 'class'].

python 離散型數據用連續數據處理的方法是:

1、等寬法:若數據區間為0~20,設置箱子個數為4個,則等寬法會將數據裝入4個箱子:[0,5],(5,10],(10,15],(15,20],並且可以設置每個箱子的名字,如1、2、3、4。

等寬法缺點是分箱結果會受到最值影響。並且需要人為指定箱子個數,比較依賴於經驗。分箱結果會直接影響後續分類、聚類的結果。

2、等頻法:等頻法是指將壹組數據分解成n個部分後,每個部分的記錄數量是壹樣多的。等頻法常用pandas庫中的qcut()函數進行處理。