簡體   English   中英

在不使用 rdd 的情況下將數據塊中的 pyspark dataframe 列轉換為列表

[英]convert a pyspark dataframe column in databricks as a list without using rdd

我試圖收集數據塊中 pyspark dataframe 列的值作為列表。

當我使用 collect function

df.select('col_name').collect()

,我得到一個包含額外值的列表。

基於一些搜索, using.rdd.flatmap() 可以解決問題

但是,出於某些安全原因(它說 rdd 未列入白名單),我無法執行或使用 rdd。 是否有另一種方法可以將列值收集為列表?

如果你有一個小的 dataframe,假設你只有一列,我建議將它轉換為 pandas dataframe 並使用tolist() function。

pdf = df.toPandas()
pdf_list = pdf['col_name'].tolist()

您的 output 應該如下所示:

['value1','value2','value3']

希望有幫助

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM