標簽[isolation-forest] - 堆棧內存溢出

[英]Outlier detection in time-series

我有以下形式的數據集：我想在預測異常高值或低值的意義上執行異常檢測。我正在執行isolation forest ：我作為離群值得到的結果如下：它似乎識別了峰值，但它遺漏了一些顯然是異常值的低值，我在圖中突出顯示了它們。知道是什么導致了這個錯誤嗎？ ...

FIlrer csv 表只有 2 列。 Python pandas PD.PD

[英]FIlrer csv table to have just 2 columns. Python pandas pd .pd

我得到了 csv 文件，其中包含如下行：我需要讓它們看起來像這樣：我的異常檢測代碼需要它，這樣我就不必手動刪除列等。至少不是全部。我無法使用與收集瓦數信息的機器配合使用的程序來做到這一點。我試過了，但它不夠用：它給出了這個 output： ...

計算 RandomForestClassifier 和 IsolationForest 的 memory 使用情況

[英]Calculate memory usage of RandomForestClassifier and IsolationForest

我想評估一下兩者都用了多少 memory 但無論 model 如何適合，總是返回 48 的值。你能幫我找出我的模型使用了多少 memory 空間嗎？ ...

Python Vetiver 模型 - 使用替代預測方法

[英]Python Vetiver model - use alternative prediction method

我正在嘗試使用Vetiver將隔離林模型（用於異常檢測）部署到 API 端點。通過調整此處的示例，一切順利。但是，在部署時，端點默認使用model.predict()方法（正常返回 1 或異常返回 -1）。我希望模型返回由model.score_samples()方法給出的 0 到 1 ...

Scikit Learn IsolationForest：如何用不同的參數擬合多個數據框（不使用 GridSearchCV）

[英]Scikit Learn IsolationForest: How to Fit Multiple Dataframes With Different Parameters (Not Using GridSearchCV)

我有五個單獨的 pandas 數據幀，我已經把它們放在字典里了。我想在 scikit-learn 中運行五個單獨的 IsolationForest 模型，每個 model 具有不同的參數集。但是，我不想單獨運行每個 model。所以我的問題是，如何運行這些模型並獲得 go 中所有數據幀的決策函 ...

無法在for循環中制作多個plotly圖

[英]Unable to make multiple plotly graphs in for loop

See Image Here我正在嘗試使用 Isolation Forest 在時間序列中制作 Plotly 圖表以進行異常檢測。問題是：只有 for 循環中最后一次迭代的 plot 出現。請幫忙。 ...

如何使用 python 中的新數據集/數據場更新訓練有素的 IsolationForest model？

[英]How can update trained IsolationForest model with new datasets/datafarmes in python?

假設我將來自 scikit-learn 的IsolationForest()算法安裝在基於時間序列的 Dataset1 或 dataframe1 df1上，並使用此處和此處提到的方法保存 model。現在我想為新的 dataset2 或df2更新我的 model 。我的發現：這個關於從 sk ...

關於分類的Isolation Tree算法題

[英]Isolation Tree algorithm question about classification

在我們創建樹 (iTrees) 的部分，我不明白為什么我們使用以下分類代碼行（與決策樹分類非常相似）：我們正在選擇最后一列和最大唯一元素的索引值？這對決策樹可能有意義，但我不明白為什么我們在隔離森林中使用它？整個 iTree 代碼如下所示：編輯：這是數據和運行 classify_data 的 ...

TypeError: 不能從 [datetime64[ns, UTC]] 到 [int32] 鍵入 datetimelike

[英]TypeError: cannot astype a datetimelike from [datetime64[ns, UTC]] to [int32]

我正在嘗試運行此代碼並獲取此 error.m 數據如下所示 TypeError: 不能從 [datetime64[ns, UTC]] 到 [int32] 鍵入 datetimelike 桌子是空的 ...

為什么 Scikit-Learn 中 IsolationForest 算法的 score_samples-function 給出相同的分數？

[英]Why is the score_samples-function of the IsolationForest algorithm in Scikit-Learn giving identical scores?

我正在嘗試在 scikit-learn 中使用 IsolationForest 算法，並且我對計算出的分數感興趣。但是當調用score_samples()時，我沒有得到我期望的分數。這是我的數據的 plot：這是調用score_samples()時來自 IsolationForest 算法 ...

二叉搜索樹中不成功搜索的平均深度

[英]the average depth in an unsuccessful search in a Binary Search Tree

對於一個研究項目，我正在使用隔離森林算法。該算法的開發者利用了二叉搜索樹理論。他們 state 將二叉搜索樹 (c(n)) 中不成功搜索的平均深度定義為： c(n)=2H(n-1)-(2(n-1)/n) 其中 H(n-1) 是諧波數，可以通過 ln(n-1)+0.5772156649（歐拉常數 ...

SHAP使用隔離森林的基值和預測值很大

[英]SHAP's base value and predicted value using isolation forest are big

我使用隔離森林 model 進行異常值檢測，還嘗試構建 shap_force plot 以查看功能。我搭建的隔離林model是：我試圖獲得形狀值：我得到的一些例子是：形狀值形狀值基值和預測值很大，超出范圍。我想知道為什么會這樣？有沒有辦法解決這個問題？ ...

SKLearn中的isolation_forest中的決定function和score_samples有什么區別

[英]What is the difference between decision function and score_samples in isolation_forest in SKLearn

我在這里閱讀了 function 和 score_samples 決定的文檔，但無法弄清楚這兩種方法之間的區別以及我應該將哪一種方法用於異常值檢測算法。任何幫助，將不勝感激。 ...

Sklearn隔離森林中污染設置與異常值預測數量之間的不一致

[英]inconsistency between contamination set up and number of outlier prediction in Sklearn isolation Forest

我受到這個notebook的啟發，我正在使用scikit-learn==0.22.2.post1對SF版本的KDDCUP99 數據集（包括 4 個屬性）進行異常檢測上下文的IsolationForest算法實驗。數據直接從sklearn中提取，並在預處理（標簽編碼分類特征）后使用默認設置傳遞給 I ...

具有多個特征的隔離森林將所有內容都檢測為異常

[英]Isolation forest with multiple features detecting everything as an anomaly

我有一個隔離林實現，我在其中獲取功能（都是數字的）；將它們縮放到 0 到 1 之間然后調用預測：在這種情況下，我有 23 個數字特征。當我運行腳本時，它絕對為每個結果返回 1。當我將功能集限制為 2 列時，它會返回 1 和 -1 的混合值。我怎樣才能解決這個問題？謝謝 ...

在隔離林中應該根據什么標准選擇引導參數？

[英]By what criteria should bootstrap parameter be selected in isolation forest?

如您所知，scikit-learn 中的隔離林 model 有一個參數bootstrap 。描述如下。如果為 True，則單個樹適合替換采樣的訓練數據的隨機子集。如果為 False，則執行無放回抽樣。我做了一個簡單的數據，訓練了一個隔離林model。但無論 bootstrap = Tru ...

如何在 python 中使用隔離森林

[英]How to use Isolation Forest in python

我正在檢測未標記數據集中的異常值（數據未標記為內點/異常值），並且我在 Python（scikit-learn 庫）中使用隔離森林。我想獲得數據集中數據的異常分數，因此我使用以下代碼：但是我有一些問題：前面的過程是否正確，或者我應該將我的數據集分成兩部分，以在一組上執行擬合並在另一組上獲得異常 ...