繁体 English 中英

PySpark数据帧管道未抛出MetastoreRelation错误计划

[英]PySpark dataframe pipeline throws No plan for MetastoreRelation Error

原文 2017-05-23 20:28:27 1 1 python/ apache-spark/ machine-learning/ pyspark/ spark-dataframe

预处理pyspark数据框后，我尝试对其应用管道，但出现以下错误：

java.lang.AssertionError：断言失败：没有针对MetastoreRelation的计划。

这是什么意思，以及如何解决。 我的代码已经变得很大，所以我将解释步骤1.我的spark数据框中有8000列和68k行。 在8k列中，有500列是我对pyspark.ml应用的一种热编码，作为ml.pipeline encoders2 encoders2 = [OneHotEncoder(inputCol=c, outputCol="{0}_enc".format(c)) for c in cat_numeric[i:i+2]]
但这非常缓慢，即使3小时后仍未完成。 我在12个节点的每一个上都使用40GB内存！ 2.因此，我正在从pyspark数据帧中读取100列，从中创建pandas数据帧并进行一次热编码。 然后，我将pandas daaframe转换回pyspark数据，并将其与原始数据帧合并。 3.然后，我尝试将具有字符串索引器和OHE阶段的管道应用于类别字符串特征（仅为5），然后使用汇编程序创建“功能”和“标签”。 但是在这个阶段我得到了上面的错误。 4.请让我知道我的方法是否错误或缺少任何内容。 如果您需要更多信息，也请告诉我。 谢谢

1 个解决方案

此错误是由于加入2个pyspark数据帧的顺序引起的。 我试图将连接顺序从说a.join（b）更改为b.join（a）及其工作。

安装管道时出现Pyspark ML管道错误

[英]Pyspark ML pipeline error when fitting pipeline

PySpark - 在数据帧上使用 randomSplit 时出错

[英]PySpark - Error using randomSplit on Dataframe

Pyspark数据框存储到MongoDB错误

[英]Pyspark dataframe store to MongoDB error

使用索引器和编码器时的PySpark管道错误

[英]PySpark Pipeline Error when using Indexer and Encoder

将RDD转换为DataFrame PySpark时出错

[英]Getting Error when convert RDD to DataFrame PySpark

在PySpark中将Spark DataFrame写入csv时出错

[英]Error while writing Spark DataFrame to csv in pyspark

熊猫dataframe.append给出错误：平面形状未对齐

[英]Pandas dataframe.append giving Error: Plan shapes are not aligned

读取熊猫数据框时出现pyspark类型错误

[英]pyspark type error on reading a pandas dataframe

PySpark ML Pipeline.load结果抛出java.lang.UnsupportedOperationException：空集合

[英]PySpark ML Pipeline.load results throws java.lang.UnsupportedOperationException: empty collection

预处理管道错误：给定列不是 dataframe 的列

[英]preprocessing pipeline error: a given column is not a column of the dataframe

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 安装管道时出现Pyspark ML管道错误 PySpark - 在数据帧上使用 randomSplit 时出错 Pyspark数据框存储到MongoDB错误使用索引器和编码器时的PySpark管道错误将RDD转换为DataFrame PySpark时出错在PySpark中将Spark DataFrame写入csv时出错熊猫dataframe.append给出错误：平面形状未对齐读取熊猫数据框时出现pyspark类型错误 PySpark ML Pipeline.load结果抛出java.lang.UnsupportedOperationException：空集合预处理管道错误：给定列不是 dataframe 的列

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM