簡體 English 中英

不使用ILP的關系數據挖掘

[英]Relational Data Mining without ILP

原文 2014-06-17 09:33:14 0 1 algorithm/ relational-database/ classification/ data-mining

我有一個來自關系數據庫的龐大數據集，需要為其創建分類模型。 通常在這種情況下，我會使用ILP，但由於特殊情況，我不能這樣做。

解決此問題的另一種方法是，當我有外交關系時嘗試匯總這些值，但是對於某些名義屬性（例如：與幾種不同葯物處方有關系的患者），我有成千上萬的重要且不同的行。如果沒有為該名義屬性的每個不同行創建新屬性，我就無法做到這一點，此外，如果我這樣做的話，大多數新列將具有NULL值。

是否有任何非ILP算法可以讓我在不使用透視等技術的情況下對關系數據庫進行數據挖掘，該技術會創建數千個新列？

1 個解決方案

首先，一些警告

我不確定為什么您不能使用您喜歡的編程（子）范例*， 歸納邏輯編程（ILP）或您嘗試分類的內容。 提供更多細節可能會導致更好的答案。 尤其是因為根據與之關聯的編程范式來選擇分類算法有點不尋常。 如果您的真實示例是機密的，則只需構成一個虛構但類似的示例。

沒有ILP的大數據分類

話雖如此，在排除ILP之后，我們在考慮的范圍內還有其他4種邏輯編程范例：

溯
答案集
約束
實用

除了邏輯編程之外的數十種范式和子范式。

例如，在函數邏輯編程中，存在稱為歸納函數邏輯編程的ILP擴展，該擴展基於反轉變窄（即變窄機制的反轉）。 這種方法克服了ILP的一些局限性（至少根據一些學者的觀點）適合於表示形式的應用，並且具有允許以更自然的方式表達問題的好處。

在不了解數據庫詳細信息以及使用ILP所面臨的障礙的情況下，我不知道這是否解決了您的問題或遭受了同樣的問題。 因此，我還將提出一種完全不同的方法。

ILP與“經典”或“命題”方法進行數據挖掘形成對比。 這些方法包括機器學習的要素，例如決策樹，神經網絡，回歸，裝袋和其他統計方法。 您可以加入使用高性能計算（HPC）將這些方法用於海量數據集的許多數據科學家，大數據工程師和統計學家的行列中，而不是由於數據量大而放棄這些方法。您還可以選擇抽樣和其他統計技術，以減少分析關系數據庫中大數據所需的計算資源和時間。

HPC包括利用多個CPU內核，通過彈性使用具有高內存和大量快速CPU內核的服務器來擴展分析，使用高性能數據倉庫設備，采用群集或其他形式的並行計算等。我不確定要使用哪種語言或統計套件分析數據，但是作為示例，該CRAN任務視圖列出了R語言的許多HPC資源，這將使您可以擴展命題算法。