繁体   English   中英

在不使用 rdd 的情况下将数据块中的 pyspark dataframe 列转换为列表

[英]convert a pyspark dataframe column in databricks as a list without using rdd

我试图收集数据块中 pyspark dataframe 列的值作为列表。

当我使用 collect function

df.select('col_name').collect()

,我得到一个包含额外值的列表。

基于一些搜索, using.rdd.flatmap() 可以解决问题

但是,出于某些安全原因(它说 rdd 未列入白名单),我无法执行或使用 rdd。 是否有另一种方法可以将列值收集为列表?

如果你有一个小的 dataframe,假设你只有一列,我建议将它转换为 pandas dataframe 并使用tolist() function。

pdf = df.toPandas()
pdf_list = pdf['col_name'].tolist()

您的 output 应该如下所示:

['value1','value2','value3']

希望有帮助

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM