[英]Market basket analysis using python for large data set with millions of rows
我正在嘗試對大約 4800 種獨特產品和 2-3 百萬行的非常大的數據集進行市場購物籃分析。 我正在使用 pyodbc 從 sql 服務器數據庫中獲取數據。
我最終將有兩列留下發票編號和產品編號來進行處理。 產品中的唯一商品數量沒有列,比如說大約 4800 件,這是一家商店的 3 年數據。 我必須對多家商店進行分析,大約 10-12 家商店,一組分析中最多 5 家商店。
即使我將數據減少到 1 年,也很多。
有誰知道使用 python 處理大量數據以進行市場籃分析的有效方法是什么?
您必須清理一些數據。 我正在解決同樣的問題。 您將遇到一個主要問題,例如。 您工作的公司是 7-11,客戶只購買 1 件商品。 這會弄亂你的數據。 您必須按發票編號和.= 1 進行分組,我仍在解決如何做到這一點。 但這對你來說很清楚。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.