[英]convert a pyspark dataframe column in databricks as a list without using rdd
我试图收集数据块中 pyspark dataframe 列的值作为列表。
当我使用 collect function
df.select('col_name').collect()
,我得到一个包含额外值的列表。
基于一些搜索, using.rdd.flatmap() 可以解决问题
但是,出于某些安全原因(它说 rdd 未列入白名单),我无法执行或使用 rdd。 是否有另一种方法可以将列值收集为列表?
如果你有一个小的 dataframe,假设你只有一列,我建议将它转换为 pandas dataframe 并使用tolist()
function。
pdf = df.toPandas()
pdf_list = pdf['col_name'].tolist()
您的 output 应该如下所示:
['value1','value2','value3']
希望有帮助
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.