簡體 English 中英

Web數據的大型機器學習

[英]Large Machine Learning on Web Data

原文 2012-04-27 08:49:50 3 2 php/ database/ matrix/ mapreduce/ machine-learning

如果我想使用太大而不適合內存的矩陣來進行大量數據擬合，我會研究哪些工具/庫？ 具體來說，如果我通常使用php + mysql運行來自網站的數據，你會建議制作一個可以在合理的時間內運行大型矩陣運算的離線流程嗎？

可能的答案可能是“你應該使用這種語言與這些分布式矩陣算法在許多機器上映射reduce”。 我認為php不是最好的語言，因此流程更像是其他一些離線進程從數據庫讀取數據，進行學習，並以php可以在以后使用的格式存儲規則（因為該網站的其他部分是建立在PHP）。

不確定這是否是一個問這個的正確的地方（會在機器學習SE中問它，但它從來沒有超出測試版）。

2 個解決方案

如果要處理大量數據，則需要執行許多操作。 處理Web規模數據的一種方法是使用Map / Reduce，也許您可以查看Apache Mahout這是一個可擴展的機器學習包，其中包含

協同過濾
基於用戶和項目的推薦人
K-Means，模糊K-Means聚類
還有很多。

具體而言，您可能會在某些開源項目（例如Weka）中提供您想要執行的操作，但您可能需要遷移/創建代碼才能執行分發作業。

希望上面給你一個想法。

機器學習是一個廣泛的領域，可以用於許多不同的事情（例如監督預測建模和無監督數據探索）。 根據您想要實現的目標以及數據的性質和維度，找到可擴展的算法，這些算法在輸出的模型質量和利用大型培訓集的可擴展性以及速度和內存消耗方面都很有趣。預測時間是一個難以回答的難題。一些算法可以是可擴展的，因為它們是在線的（即，不必一次加載所有數據集而逐步學習），其他算法可以擴展，因為它們可以被分成可以並行執行的子任務。 這完全取決於您要實現的目標以及您過去收集/注釋的數據類型。

例如，對於文本分類，簡單的線性模型，如具有良好特征的邏輯回歸（TF-IDF歸一化，可選的二元組和可選的二元特征選擇）可以擴展到非常大的數據集（數百萬個文檔），而無需任何類型的聚類集群上的並行化。 查看liblinear和vowpal wabbit，以構建這種可擴展的分類模型。

web 機器學習，PHP 連接 python

[英]Machine Learning on web, PHP connection with python

捕獲用戶數據以進行機器學習和推薦

[英]Capturing user data for machine learning and recommendations

機器學習 / 深度學習 / NLP 在 web 開發或 web 應用程序中的實現在哪里？

[英]Where the implement of Machine Learning / Deep Learning / NLP in web development or web application?

從Python到PHP-Azure機器學習

[英]Python to PHP - Azure Machine Learning

對要在網上發布的大數據集進行統計分析

[英]Statistical analysis on large data set to be published on the web

使用REST Web服務處理大量數據

[英]Dealing with a large quantity of data with a REST web service

如何准備從 php 中的 sql 輸出的數據以運行 PHP 機器學習庫

[英]How to prepare data outputted from sql in php to run through the PHP machine learning Library

Web服務大數據json響應-數據提取問題

[英]web services large data json response - data fetch issue

如何在 php 機器學習庫中填充示例

[英]How to populate sample in php machine learning library

使用NLP /機器學習教一台機器如何檢測字符串是否是數學的？

[英]Use NLP / Machine Learning to teach a machine how to detect if a string is mathematical?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 web 機器學習，PHP 連接 python 捕獲用戶數據以進行機器學習和推薦機器學習 / 深度學習 / NLP 在 web 開發或 web 應用程序中的實現在哪里？從Python到PHP-Azure機器學習對要在網上發布的大數據集進行統計分析使用REST Web服務處理大量數據如何准備從 php 中的 sql 輸出的數據以運行 PHP 機器學習庫 Web服務大數據json響應-數據提取問題如何在 php 機器學習庫中填充示例使用NLP /機器學習教一台機器如何檢測字符串是否是數學的？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM