[英]is there a way convert a spark dataframe generated from a sql statement into an rdd?
如果我使用以下spark sql語句:
df = spark.sql('SELECT col_name FROM table_name')
它將返回spark數據框對象。 如何將其轉換為rdd? 有沒有一種方法可以直接使用sql讀取表,但生成rdd而不是數據框?
提前致謝
df = spark.sql('SELECT col_name FROM table_name')
df.rdd
#您可以保存它,執行轉換等。
df.rdd
返回的內容以pyspark.RDD
行。
然后,您可以映射到該行的RDD
,將每個行轉換為一個numpy
向量。 我不能更具體地說明轉換,因為我不知道您的向量在給定的信息下代表什么。
注意1 : df
是定義我們的數據框的變量。
注2 :此功能自Spark 1.3起可用
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.