[英]data mining algorithm that suggest for this situation
這不是一個直接與編程相關的問題,而是關於選擇正確的數據挖掘算法。
我有一些文件夾,假設有 100 個文件夾,這些文件夾的內容是圖像和文本文檔,我有這些文件夾的 excel 表(100 個表),這意味着每個文件夾都有特定的表,這個 excel 表內容如下:
在標題(列標題)中包含此文件夾的內容,行包含我要檢查的文件(我的測試文件),如果在該文件夾中找到文件,則此表中的值為 o 和 1,否則值為 1 否則為 o ,這些所有文件夾的測試文件名都相同,
問:什么是最好的數據挖掘算法可以在 excel 文件表上工作,並且可以根據測試文件內容對這些文件夾進行聚類,例如聚類 1 包括包含文件 1 和文件 20 和文件 25 的文件夾......等等..考慮我使用matlab語言?
謝謝 ...
這里的英語有點混亂,所以我會盡可能地解釋這個問題。 你想在這里做的事情似乎不需要任何復雜的算法。 繼續獲取您的 excel 數據並將其導出為 CSV,以便您可以在 Matlab 中工作。
現在你有如下數據:
Folder -> [ Files ]
您可能希望以這種方式構建索引:
File -> [ Folders ]
這樣,當您提出問題:“哪些文件夾包含文件 1、20 和 25”時,您可以(在恆定時間內)查找 3 件事:
然后取這些集合的交集。
================================================== =
您可能感興趣的另一件事是“聚類”。 為此,請繼續使用您的文件夾描述符(1 和 0)並將其視為特征/向量。 然后繼續並在其上運行任何聚類算法。 K-means 聚類在 Matlab 中很容易實現。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.