簡體   English   中英

使用 python 對具有數百萬行的大型數據集進行市場籃分析

[英]Market basket analysis using python for large data set with millions of rows

我正在嘗試對大約 4800 種獨特產品和 2-3 百萬行的非常大的數據集進行市場購物籃分析。 我正在使用 pyodbc 從 sql 服務器數據庫中獲取數據。

我最終將有兩列留下發票編號和產品編號來進行處理。 產品中的唯一商品數量沒有列,比如說大約 4800 件,這是一家商店的 3 年數據。 我必須對多家商店進行分析,大約 10-12 家商店,一組分析中最多 5 家商店。

即使我將數據減少到 1 年,也很多。

有誰知道使用 python 處理大量數據以進行市場籃分析的有效方法是什么?

您必須清理一些數據。 我正在解決同樣的問題。 您將遇到一個主要問題,例如。 您工作的公司是 7-11,客戶只購買 1 件商品。 這會弄亂你的數據。 您必須按發票編號和.= 1 進行分組,我仍在解決如何做到這一點。 但這對你來說很清楚。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM