繁体   English   中英

如何使用 pyspark 在数据块中循环 dataframe 列

[英]How to loop dataframe column in databricks using pyspark

我想将一个句子词形化,如下所示。它对单个句子工作正常,如图所示

参考这张图片,我想对字符串的整个数据框列进行词形还原,但它会引发错误

我想使用在 databricks 中运行的 pyspark 对 dataframe 列应用词形还原。请参阅图像以了解错误。

在 function 中导入 function lemmatize_sentence(),然后创建应该可以工作的 UDF。 您收到此错误是因为导入是在驱动程序节点上而不是在整个集群上。 当您在 function 中导入它时,在这种情况下,在创建 UDF 时,它会将 function 的副本发送到集群中的所有节点。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM