簡體   English   中英

有人可以解釋一下 ID3 和 CART 算法之間的區別嗎?

[英]Can someone explain me the difference between ID3 and CART algorithm?

我必須使用 R 軟件和 rpart Package 創建決策樹。在我的論文中,我應該首先定義 ID3 算法,然后實現各種決策樹。

我發現 rpart package 不適用於 ID3 算法。 它使用 CART 算法。 我想了解其中的差異,並可能在我的論文中解釋差異,但我沒有找到任何比較雙方的文獻。

你能幫助我嗎? 你知道一篇比較兩者的論文嗎,或者你能向我解釋一下區別嗎?

我無權訪問原始文本1,2,但是使用一些輔助資源,這些遞歸(“貪婪”)分區(“樹”)算法之間的主要區別似乎是:

  1. 學習類型:

    • ID3作為“迭代二分法”,僅適用於二進制分類
    • CART或“分類回歸樹”是一類算法(包括但不限於二進制分類樹學習)。 使用rpart() ,可以指定method='class'method='anova' ,但是rpart可以從因變量的類型(即因數或數字)中推斷出這一點。
  2. 用於拆分選擇的損失函數。

    • 正如其他評論所提到的,ID3根據信息增益來選擇其拆分,這是父節點與子節點(加權總和)之間的的減小。
    • CART用於分類時,選擇其拆分以實現將基尼雜質最小化的子集

有趣的是,作為一名從業人員,我幾乎從未聽說過使用ID3這個術語,而CART通常被用作決策樹的統稱。 CART在R的rpart軟件包中有一個非常流行的實現。 ?rpart指出:“在大多數細節上,它與布雷曼(Breiman)等人(1984)的關系非常緊密。”

但是,您可以傳遞rpart(..., parms=list(split='information'))來覆蓋默認行為,並拆分信息獲取。

1 Quinlan,JR1986。 決策樹歸納 馬赫。 學習。 1,1(1986年3月),81-106

2布雷曼,獅子座; JH弗里德曼; RA,奧爾申; 斯通,CJ(1984)。 分類和回歸樹 加利福尼亞蒙特雷:Wadsworth&Brooks / Cole高級圖書與軟件。

http://www.cs.umd.edu/~samir/498/10Algorithms-08.pdf

閱讀本文的1 C4.5及更高版本 。它將澄清您的所有疑問,對我有幫助。 不要對標題感到沮喪,因為標題關於不同樹算法的差異。 無論如何,一篇好論文要通讀

ID3算法可用於分類特征和分類label。而CART用於連續特征和連續label。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM