[英]Can someone explain me the difference between ID3 and CART algorithm?
我必須使用 R 軟件和 rpart Package 創建決策樹。在我的論文中,我應該首先定義 ID3 算法,然后實現各種決策樹。
我發現 rpart package 不適用於 ID3 算法。 它使用 CART 算法。 我想了解其中的差異,並可能在我的論文中解釋差異,但我沒有找到任何比較雙方的文獻。
你能幫助我嗎? 你知道一篇比較兩者的論文嗎,或者你能向我解釋一下區別嗎?
我無權訪問原始文本1,2,但是使用一些輔助資源,這些遞歸(“貪婪”)分區(“樹”)算法之間的主要區別似乎是:
學習類型:
rpart()
,可以指定method='class'
或method='anova'
,但是rpart
可以從因變量的類型(即因數或數字)中推斷出這一點。 用於拆分選擇的損失函數。
有趣的是,作為一名從業人員,我幾乎從未聽說過使用ID3這個術語,而CART通常被用作決策樹的統稱。 CART在R的rpart
軟件包中有一個非常流行的實現。 ?rpart
指出:“在大多數細節上,它與布雷曼(Breiman)等人(1984)的關系非常緊密。”
但是,您可以傳遞rpart(..., parms=list(split='information'))
來覆蓋默認行為,並拆分信息獲取。
1 Quinlan,JR1986。 決策樹歸納 。 馬赫。 學習。 1,1(1986年3月),81-106
2布雷曼,獅子座; JH弗里德曼; RA,奧爾申; 斯通,CJ(1984)。 分類和回歸樹 。 加利福尼亞蒙特雷:Wadsworth&Brooks / Cole高級圖書與軟件。
http://www.cs.umd.edu/~samir/498/10Algorithms-08.pdf
閱讀本文的1 C4.5及更高版本 。它將澄清您的所有疑問,對我有幫助。 不要對標題感到沮喪,因為標題關於不同樹算法的差異。 無論如何,一篇好論文要通讀
ID3算法可用於分類特征和分類label。而CART用於連續特征和連續label。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.