使用 ML、無監督 ML 填充 NaN 值以進行入侵檢測的方法

Question

我創建了一個 CSV 文件。 它包含 250800 行和 75 列。 我正在進行 EDA 分析以將數據用於 ML。

看起來像這樣。 所有列都是浮點數或 integer 值。 (df.info()) 當我這樣做時：

df.dropna()

它刪除了 NaN 值，但問題是像協議這樣的列丟失了所有唯一值並且只有一個值，對於dstport也是如此，這不是我想要的，丟失數據是不受歡迎的。 正如這里所建議的，我這樣做了：

df = df.dropna(subset = ["Protocol","DstPort", "State"])

但結果是一樣的，仍然是相同的 NaN 值，並且不能應用例如 Kmeans 聚類。

我想征求你的建議。 我應該怎么辦？ 我能以某種方式填充這些值嗎，但我不知道在哪種意義上？ 我應該選擇哪個機器學習 model？

Answer 1

我找到了 3 種常用的方法來填充 NaN 值。

我不確定這是否是我的數據的正確方法，因為它是網絡流量，但只是想分享。