cost 73 ms
時間序列中的異常值檢測

[英]Outlier detection in time-series

我有以下形式的數據集: 我想在預測異常高值或低值的意義上執行異常檢測。 我正在執行isolation forest : 我作為離群值得到的結果如下: 它似乎識別了峰值,但它遺漏了一些顯然是異常值的低值,我在圖中突出顯示了它們。 知道是什么導致了這個錯誤嗎? ...

FIlrer csv 表只有 2 列。 Python pandas PD.PD

[英]FIlrer csv table to have just 2 columns. Python pandas pd .pd

我得到了 csv 文件,其中包含如下行: 我需要讓它們看起來像這樣: 我的異常檢測代碼需要它,這樣我就不必手動刪除列等。 至少不是全部。 我無法使用與收集瓦數信息的機器配合使用的程序來做到這一點。 我試過了,但它不夠用: 它給出了這個 output: ...

Python Vetiver 模型 - 使用替代預測方法

[英]Python Vetiver model - use alternative prediction method

我正在嘗試使用Vetiver將隔離林模型(用於異常檢測)部署到 API 端點。 通過調整此處的示例,一切順利。 但是,在部署時,端點默認使用model.predict()方法(正常返回 1 或異常返回 -1)。 我希望模型返回由model.score_samples()方法給出的 0 到 1 ...

Scikit Learn IsolationForest:如何用不同的參數擬合多個數據框(不使用 GridSearchCV)

[英]Scikit Learn IsolationForest: How to Fit Multiple Dataframes With Different Parameters (Not Using GridSearchCV)

我有五個單獨的 pandas 數據幀,我已經把它們放在字典里了。 我想在 scikit-learn 中運行五個單獨的 IsolationForest 模型,每個 model 具有不同的參數集。但是,我不想單獨運行每個 model。 所以我的問題是,如何運行這些模型並獲得 go 中所有數據幀的決策函 ...

如何使用 python 中的新數據集/數據場更新訓練有素的 IsolationForest model?

[英]How can update trained IsolationForest model with new datasets/datafarmes in python?

假設我將來自 scikit-learn 的IsolationForest()算法安裝在基於時間序列的 Dataset1 或 dataframe1 df1上,並使用此處和此處提到的方法保存 model。 現在我想為新的 dataset2 或df2更新我的 model 。 我的發現: 這個關於從 sk ...

關於分類的Isolation Tree算法題

[英]Isolation Tree algorithm question about classification

在我們創建樹 (iTrees) 的部分,我不明白為什么我們使用以下分類代碼行(與決策樹分類非常相似): 我們正在選擇最后一列和最大唯一元素的索引值? 這對決策樹可能有意義,但我不明白為什么我們在隔離森林中使用它? 整個 iTree 代碼如下所示: 編輯:這是數據和運行 classify_data 的 ...

為什么 Scikit-Learn 中 IsolationForest 算法的 score_samples-function 給出相同的分數?

[英]Why is the score_samples-function of the IsolationForest algorithm in Scikit-Learn giving identical scores?

我正在嘗試在 scikit-learn 中使用 IsolationForest 算法,並且我對計算出的分數感興趣。 但是當調用score_samples()時,我沒有得到我期望的分數。 這是我的數據的 plot: 這是調用score_samples()時來自 IsolationForest 算法 ...

二叉搜索樹中不成功搜索的平均深度

[英]the average depth in an unsuccessful search in a Binary Search Tree

對於一個研究項目,我正在使用隔離森林算法。 該算法的開發者利用了二叉搜索樹理論。 他們 state 將二叉搜索樹 (c(n)) 中不成功搜索的平均深度定義為: c(n)=2H(n-1)-(2(n-1)/n) 其中 H(n-1) 是諧波數,可以通過 ln(n-1)+0.5772156649(歐拉常數 ...

SHAP使用隔離森林的基值和預測值很大

[英]SHAP's base value and predicted value using isolation forest are big

我使用隔離森林 model 進行異常值檢測,還嘗試構建 shap_force plot 以查看功能。 我搭建的隔離林model是: 我試圖獲得形狀值: 我得到的一些例子是: 形狀值形狀值基值和預測值很大,超出范圍。 我想知道為什么會這樣? 有沒有辦法解決這個問題? ...

Sklearn隔離森林中污染設置與異常值預測數量之間的不一致

[英]inconsistency between contamination set up and number of outlier prediction in Sklearn isolation Forest

我受到這個notebook的啟發,我正在使用scikit-learn==0.22.2.post1對SF版本的KDDCUP99 數據集(包括 4 個屬性)進行異常檢測上下文的IsolationForest算法實驗。 數據直接從sklearn中提取,並在預處理(標簽編碼分類特征)后使用默認設置傳遞給 I ...

具有多個特征的隔離森林將所有內容都檢測為異常

[英]Isolation forest with multiple features detecting everything as an anomaly

我有一個隔離林實現,我在其中獲取功能(都是數字的); 將它們縮放到 0 到 1 之間 然后調用預測: 在這種情況下,我有 23 個數字特征。 當我運行腳本時,它絕對為每個結果返回 1。 當我將功能集限制為 2 列時,它會返回 1 和 -1 的混合值。 我怎樣才能解決這個問題? 謝謝 ...

在隔離林中應該根據什么標准選擇引導參數?

[英]By what criteria should bootstrap parameter be selected in isolation forest?

如您所知,scikit-learn 中的隔離林 model 有一個參數bootstrap 。 描述如下。 如果為 True,則單個樹適合替換采樣的訓練數據的隨機子集。 如果為 False,則執行無放回抽樣。 我做了一個簡單的數據,訓練了一個隔離林model。 但無論 bootstrap = Tru ...

如何在 python 中使用隔離森林

[英]How to use Isolation Forest in python

我正在檢測未標記數據集中的異常值(數據未標記為內點/異常值),並且我在 Python(scikit-learn 庫)中使用隔離森林。 我想獲得數據集中數據的異常分數,因此我使用以下代碼: 但是我有一些問題: 前面的過程是否正確,或者我應該將我的數據集分成兩部分,以在一組上執行擬合並在另一組上獲得異常 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM