繁体   English   中英

使用 python 对具有数百万行的大型数据集进行市场篮分析

[英]Market basket analysis using python for large data set with millions of rows

我正在尝试对大约 4800 种独特产品和 2-3 百万行的非常大的数据集进行市场购物篮分析。 我正在使用 pyodbc 从 sql 服务器数据库中获取数据。

我最终将有两列留下发票编号和产品编号来进行处理。 产品中的唯一商品数量没有列,比如说大约 4800 件,这是一家商店的 3 年数据。 我必须对多家商店进行分析,大约 10-12 家商店,一组分析中最多 5 家商店。

即使我将数据减少到 1 年,也很多。

有谁知道使用 python 处理大量数据以进行市场篮分析的有效方法是什么?

您必须清理一些数据。 我正在解决同样的问题。 您将遇到一个主要问题,例如。 您工作的公司是 7-11,客户只购买 1 件商品。 这会弄乱你的数据。 您必须按发票编号和.= 1 进行分组,我仍在解决如何做到这一点。 但这对你来说很清楚。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM