繁体   English   中英

PySpark数据帧管道未抛出MetastoreRelation错误计划

[英]PySpark dataframe pipeline throws No plan for MetastoreRelation Error

预处理pyspark数据框后,我尝试对其应用管道,但出现以下错误:

java.lang.AssertionError:断言失败:没有针对MetastoreRelation的计划。

这是什么意思,以及如何解决。 我的代码已经变得很大,所以我将解释步骤1.我的spark数据框中有8000列和68k行。 在8k列中,有500列是我对pyspark.ml应用的一种热编码,作为ml.pipeline encoders2 encoders2 = [OneHotEncoder(inputCol=c, outputCol="{0}_enc".format(c)) for c in cat_numeric[i:i+2]]
但这非常缓慢,即使3小时后仍未完成。 我在12个节点的每一个上都使用40GB内存! 2.因此,我正在从pyspark数据帧中读取100列,从中创建pandas数据帧并进行一次热编码。 然后,我将pandas daaframe转换回pyspark数据,并将其与原始数据帧合并。 3.然后,我尝试将具有字符串索引器和OHE阶段的管道应用于类别字符串特征(仅为5),然后使用汇编程序创建“功能”和“标签”。 但是在这个阶段我得到了上面的错误。 4.请让我知道我的方法是否错误或缺少任何内容。 如果您需要更多信息,也请告诉我。 谢谢

此错误是由于加入2个pyspark数据帧的顺序引起的。 我试图将连接顺序从说a.join(b)更改为b.join(a)及其工作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM