[英]Market basket analysis using python for large data set with millions of rows
我正在尝试对大约 4800 种独特产品和 2-3 百万行的非常大的数据集进行市场购物篮分析。 我正在使用 pyodbc 从 sql 服务器数据库中获取数据。
我最终将有两列留下发票编号和产品编号来进行处理。 产品中的唯一商品数量没有列,比如说大约 4800 件,这是一家商店的 3 年数据。 我必须对多家商店进行分析,大约 10-12 家商店,一组分析中最多 5 家商店。
即使我将数据减少到 1 年,也很多。
有谁知道使用 python 处理大量数据以进行市场篮分析的有效方法是什么?
您必须清理一些数据。 我正在解决同样的问题。 您将遇到一个主要问题,例如。 您工作的公司是 7-11,客户只购买 1 件商品。 这会弄乱你的数据。 您必须按发票编号和.= 1 进行分组,我仍在解决如何做到这一点。 但这对你来说很清楚。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.