簡體   English   中英

建議這種情況的數據挖掘算法

[英]data mining algorithm that suggest for this situation

這不是一個直接與編程相關的問題,而是關於選擇正確的數據挖掘算法。

我有一些文件夾,假設有 100 個文件夾,這些文件夾的內容是圖像和文本文檔,我有這些文件夾的 excel 表(100 個表),這意味着每個文件夾都有特定的表,這個 excel 表內容如下:

在標題(列標題)中包含此文件夾的內容,行包含我要檢查的文件(我的測試文件),如果在該文件夾中找到文件,則此表中的值為 o 和 1,否則值為 1 否則為 o ,這些所有文件夾的測試文件名都相同,

問:什么是最好的數據挖掘算法可以在 excel 文件表上工作,並且可以根據測試文件內容對這些文件夾進行聚類,例如聚類 1 包括包含文件 1 和文件 20 和文件 25 的文件夾......等等..考慮我使用matlab語言?

謝謝 ...

這里的英語有點混亂,所以我會盡可能地解釋這個問題。 你想在這里做的事情似乎不需要任何復雜的算法。 繼續獲取您的 excel 數據並將其導出為 CSV,以便您可以在 Matlab 中工作。

現在你有如下數據:

Folder -> [ Files ]

您可能希望以這種方式構建索引:

File -> [ Folders ]

這樣,當您提出問題:“哪些文件夾包含文件 1、20 和 25”時,您可以(在恆定時間內)查找 3 件事:

  1. 包含文件 1 的文件夾
  2. 包含文件 20 的文件夾
  3. 包含文件 25 的文件夾

然后取這些集合的交集。

================================================== =

您可能感興趣的另一件事是“聚類”。 為此,請繼續使用您的文件夾描述符(1 和 0)並將其視為特征/向量。 然后繼續並在其上運行任何聚類算法。 K-means 聚類在 Matlab 中很容易實現。

[1] https://en.wikipedia.org/wiki/Cluster_analysis

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM