标签[fpgrowth] - 堆栈内存溢出

从 .txt 文件创建一个字典，每行作为值，序列号作为键 - create a dictionary from .txt file with each line as values and serial num as key

我有一个数据集，它是一个 .txt 文件，每一行都有用空格分隔的项目。每一行都是不同的交易。数据集如下所示：数据.txt文件我用键作为序列号创建了一个字典。从 0 开始，每行值用逗号分隔，就像这样但我无法遍历 dict 中的每个值，有什么方法可以将它转换为每个键的值列表我想在整个字典中找 ...

比较各组之间的年费率 - Compare the annual rates between groups

我正在努力比较时间间隔内两个百分比之间的“死亡率”。我的目标是获得每组的年费率。我的值已经是百分比（ start值和end值），代表了我的森林在几年内从总森林覆盖率中消失（干扰、烧毁、砍伐等）的情况。例如，第一年是 1%，最后一年 20% 是总森林损失的累积值。我遵循了复合年增长率( C ...

TypeError: apriori() 得到了一个意外的关键字参数“mini_support” - TypeError: apriori() got an unexpected keyword argument 'mini_support'

这是关于先验与 FP 增长算法的教程，这里的问题是在先验中计算最小支持我得到了这个错误。我该如何解决这个问题？ ...

调用 rCBA::fpgrowth 时出错：带有签名 (DDI) 的方法 fpgrowth[[Ljava/lang/String; 未找到 - Error calling rCBA::fpgrowth: method fpgrowth with signature (DDI)[[Ljava/lang/String; not found

我写了下面的 R 代码来使用 FP-Growth 算法进行挖矿：但我收到以下错误：这些是我的数据： ...

有没有办法在 pyspark 数组 function 中放置多列？（FP成长准备） - Is there a way to put multiple columns in pyspark array function? (FP Growt prep)

我有一个带有疾病症状的 DataFrame，我想在整个 DataFrame 上运行 FP Growt。 FP Growt 想要一个数组作为输入，它使用以下代码：功能列表更长，如果我必须更改 df 的名称，我必须使用查找和替换。我知道我可以使用F.col("Gender")而不是df["Gen ...

如何在 sparklyr package 中运行 FPGrowth - how to run FPGrowth in sparklyr package

我有数据“ li ”，我想运行算法 FPGrowth，但我不知道如何这里有一个类似的答案，但它不起作用，我得到了错误 /// plyr::mutate /// SparkR::mutate ...

Spark 中的并行 FP 增长 - Parallel FP Growth in Spark

我试图了解 FPTree class 的“添加”和“提取”方法：（ https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ mllib/fpm/FPGrowth.scala ）。 “摘要” ...

如何解释 Mlxtend 关联规则的结果 - How to interpret results of Mlxtend's association rule

我正在使用mlxtend查找关联规则：这是代码： Output：我给出了一个min support=0.4 。 antecedentsupport支持、后consequentsupport支持和support有什么区别？ lift and leverage? 如何判断它的好坏？信心我可 ...

无法将 org 模块导入 PySpark 集群 - Unable to import org module to PySpark cluster

我正在尝试从 org 模块导入 FPGrowth，但在安装 org 模块时会引发错误。我还尝试将 org.apache.spark 替换为 pyspark，仍然不起作用。以下是错误： ...

在 Python 中使用 FP-Growth 算法确定最频繁模式 - Using FP-Growth algorithm in Python to determine the most frequent pattern

我使用 mlxtend.frequent_patterns fpgrowth 库在 python 中使用了 FP-Growth 算法。我遵循了他们页面中提到的代码，并且生成了我认为是递归的规则。我使用这些规则形成了一个 dataframe。现在我正在尝试使用循环计算支撑和提升，但这需要很多时间 ...

Pyspark FP 增长实现运行缓慢 - Pyspark FP growth implementation running slow

我在 Spark v2.3 上使用关联规则挖掘的 pyspark.ml.fpm (FP Growth) 实现。 spark UI 显示作为结束的任务运行非常缓慢。这似乎是一个常见问题，可能与数据倾斜有关。这是真正的原因吗？有什么解决办法吗？我不想更改 minSupport 或 min ...

将格式化为 Pandas DataFrame 的字符串转换为实际的 DataFrame - Convert string formatted as Pandas DataFrame into an actual DataFrame

我正在尝试将格式化的字符串转换为熊猫数据框。我正在尝试使用pandas.DataFrame方法来执行此操作，但结果是将整个字符串放置在DataFrame一个元素内。 ...

在 Sparklyr 中使用 ml_fpgrowth 选择支持度和置信度值 - Choosing support and confidence values with ml_fpgrowth in Sparklyr

我试图从这个Kaggle 脚本中获得一些灵感，其中作者使用 arules 在 R 中执行市场篮子分析。我对他们传递置信度和支持值向量然后绘制数量的部分特别感兴趣生成规则以帮助选择要使用的最佳值，而不是生成大量规则。我想尝试相同的过程，但我在 R 中使用 sparklyr/spark 和 fp ...

pyspark--FPGrowth：转换如何处理看不见的交易？ - pyspark--FPGrowth: how does transform work on unseen transactions?

我在 Spark 2.4 中使用 pyspark.ml.fpm.FPGrowth，我有一个关于如何精确转换新事务的问题。我的理解是 model.transform 将获取每个事务 X 并找到所有 Y，使得 Conf(X-->Y) > minConfidence。然后它将返回按置信度 ...

FP-Growth 算法中的递归 - Recursion in FP-Growth Algorithm

我正在尝试在 Java 中实现 FP-Growth（频繁模式挖掘）算法。我已经构建了树，但是在条件 FP 树构建时遇到了困难；我不明白递归 function 应该做什么。给定一个频繁项列表（按频率计数递增的顺序） - header 和一个树（节点 class 实例列表）function 应该采 ...

在 PySpark 中将 StringType 列转换为 ArrayType - Convert StringType Column To ArrayType In PySpark

我有一个包含“EVENT_ID”列的数据框，其数据类型为字符串。我正在运行 FPGrowth 算法，但抛出以下错误列 EVENT_ID 有值我正在使用下面的代码将字符串列转换为数组类型但我收到以下错误如何将此列转换为数组类型或使用字符串类型运行 FPGrowth 算法？ ...

使用 Spark 将列名附加到列值 - Appending column name to column value using Spark

我有逗号分隔文件中的数据，我已将其加载到 spark 数据框中：数据如下所示：我想使用 pyspark 将上面的数据框转换为 spark 格式：然后使用 pyspark 将其转换为列表列表：然后在上述数据集上使用pyspark运行FP增长算法。我试过的代码如下：然后我想到 ...

python中.CSV或.XLSX文件中使用pyspark生成的关联规则如何高效导出 - How to efficiently export association rule generated using pyspark in .CSV or .XLSX file in python

解决此问题后：如何将 FPGrowth 项集限制为 2 或 3我正在尝试使用 pyspark 将 fpgrowth 的关联规则输出导出到 python 中的 .csv 文件。运行近 8-10 小时后，出现错误。我的机器有足够的空间和内存。代码在链接中：如何将 FPGrowth 项集限制 ...

为什么在此实施中Apriori的运行速度比FP-Growth快？ - Why does Apriori run faster than FP-Growth in this implementation?

我正在使用Christian Borlget的FP-Growth和Apriori软件包来查找频繁的项目集和关联规则。根据他的论文，在所有情况下，fp-growth的性能均优于先验。在〜36MB（〜500,000行）csv文件上的计算机上运行FP-Growth，显示：而Ap ...

Pyspark + 关联规则挖掘：如何将数据帧转换为适合频繁模式挖掘的格式？ - Pyspark + association rule mining: how to transfer a data frame to a format suitable for frequent pattern mining?

我正在尝试使用 pyspark 进行关联规则挖掘。假设我的数据是这样的：但根据https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html ，格式应该是：所以我需要将我的数据从垂直传输到水平，并且所有 id 的长 ...