[英]is there a way convert a spark dataframe generated from a sql statement into an rdd?
如果我使用以下spark sql语句:
df = spark.sql('SELECT col_name FROM table_name')
它将返回spark数据框对象。 如何将其转换为rdd? 有没有一种方法可以直接使用sql读取表,但生成rdd而不是数据框?
提前致谢
df = spark.sql('SELECT col_name FROM table_name')
df.rdd
#您可以保存它,执行转换等。
df.rdd
返回的内容以pyspark.RDD
行。
然后,您可以映射到该行的RDD
,将每个行转换为一个numpy
向量。 我不能更具体地说明转换,因为我不知道您的向量在给定的信息下代表什么。
注意1 : df
是定义我们的数据框的变量。
注2 :此功能自Spark 1.3起可用
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.