[英]convert a pyspark dataframe column in databricks as a list without using rdd
我試圖收集數據塊中 pyspark dataframe 列的值作為列表。
當我使用 collect function
df.select('col_name').collect()
,我得到一個包含額外值的列表。
基於一些搜索, using.rdd.flatmap() 可以解決問題
但是,出於某些安全原因(它說 rdd 未列入白名單),我無法執行或使用 rdd。 是否有另一種方法可以將列值收集為列表?
如果你有一個小的 dataframe,假設你只有一列,我建議將它轉換為 pandas dataframe 並使用tolist()
function。
pdf = df.toPandas()
pdf_list = pdf['col_name'].tolist()
您的 output 應該如下所示:
['value1','value2','value3']
希望有幫助
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.