簡體   English   中英

隨機森林生存分析崩潰

[英]Random forest survival analysis crashes

我正在嘗試在具有59個變量的6500條記錄數據幀上運行RFSRC:

rfsrc_test <- rfsrc(Surv(TIME, DIED) ~ ., data=test, nsplit=10, na.action = "na.impute")

當我在1500條記錄上運行它時似乎可以工作,但是在整個數據集上崩潰。
它使R崩潰而沒有任何特定錯誤-有時會給出“異常處理錯誤”。
有什么想法如何調試這個嗎? 我在數據庫中瀏覽了一些奇怪的行,但是沒有任何運氣。

我們不知道每個記錄的大小,也不知道變量的復雜性。

當我遇到RAM開銷時,我遇到了類似的情況。 R不是為海量數據集設計的。 並行處理將解決此問題,但是R不是為此設計的,下一個建議是購買更多的RAM。

我的方法是減少變量的數量,直到您可以處理6500條記錄(以確保其只是數據集的大小)為止。 然后,我將預先篩選每個變量(例如GLM)的適用性,並使用可以解釋大量數據並最大程度減少殘差的變量。 然后,我將在數量減少的變量上重新運行生存分析。

您可以檢查的一件事是時間變量-存在多少個不同的值? 生存森林將為每個節點保存累積危害函數。 如果數據集中唯一時間點的數量大於CHFS的增長范圍,則也必須四舍五入我的時間變量,這會大大減少運行時間。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM