簡體   English   中英

Web數據的大型機器學習

[英]Large Machine Learning on Web Data

如果我想使用太大而不適合內存的矩陣來進行大量數據擬合,我會研究哪些工具/庫? 具體來說,如果我通常使用php + mysql運行來自網站的數據,你會建議制作一個可以在合理的時間內運行大型矩陣運算的離線流程嗎?

可能的答案可能是“你應該使用這種語言與這些分布式矩陣算法在許多機器上映射reduce”。 我認為php不是最好的語言,因此流程更像是其他一些離線進程從數據庫讀取數據,進行學習,並以php可以在以后使用的格式存儲規則(因為該網站的其他部分是建立在PHP)。

不確定這是否是一個問這個的正確的地方(會在機器學習SE中問它,但它從來沒有超出測試版)。

如果要處理大量數據,則需要執行許多操作。 處理Web規模數據的一種方法是使用Map / Reduce,也許您可​​以查看Apache Mahout這是一個可擴展的機器學習包,其中包含

  • 協同過濾
  • 基於用戶和項目的推薦人
  • K-Means,模糊K-Means聚類
  • 還有很多。

具體而言,您可能會在某些開源項目(例如Weka)中提供您想要執行的操作,但您可能需要遷移/創建代碼才能執行分發作業。

希望上面給你一個想法。

機器學習是一個廣泛的領域,可以用於許多不同的事情(例如監督預測建模和無監督數據探索)。 根據您想要實現的目標以及數據的性質和維度,找到可擴展的算法,這些算法在輸出的模型質量和利用大型培訓集的可擴展性以及速度和內存消耗方面都很有趣。預測時間是一個難以回答的難題。 一些算法可以是可擴展的,因為它們是在線的(即,不必一次加載所有數據集而逐步學習),其他算法可以擴展,因為它們可以被分成可以並行執行的子任務。 這完全取決於您要實現的目標以及您過去收集/注釋的數據類型。

例如,對於文本分類,簡單的線性模型,如具有良好特征的邏輯回歸(TF-IDF歸一化,可選的二元組和可選的二元特征選擇)可以擴展到非常大的數據集(數百萬個文檔),而無需任何類型的聚類集群上的並行化。 查看liblinear和vowpal wabbit,以構建這種可擴展的分類模型。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM