cost 324 ms
如何更改 PySpark 中的 dataframe 列名?

[英]How to change dataframe column names in PySpark?

我来自 pandas 背景,习惯于将 CSV 文件中的数据读取到 dataframe 中,然后使用简单命令将列名称简单地更改为有用的名称: 但是,这在使用 sqlContext 创建的 PySpark 数据帧中不起作用。 我能想到的唯一解决方案是轻松地做到这一点: 这基本上是定义变量两次并首先推断 ...

如何更改 Spark SQL 的 DataFrame 中的列类型?

[英]How can I change column types in Spark SQL's DataFrame?

假设我正在做类似的事情: 但我真的希望year为Int (可能还转换其他一些列)。 我能想到的最好的是 这有点令人费解。 我来自 R,我习惯于能够写,例如 我可能遗漏了一些东西,因为在 Spark/Scala 中应该有更好的方法来做到这一点...... ...

在 pyspark dataframe 中显示不同的列值

[英]Show distinct column values in pyspark dataframe

对于 pyspark dataframe,您如何做相当于 Pandas df['col'].unique()操作。 我想列出 pyspark dataframe 列中的所有唯一值。 不是 SQL 类型的方式(registertemplate 然后 SQL 查询不同的值)。 此外,我不需要groupb ...

如何将PySpark中的表dataframe导出到csv?

[英]How to export a table dataframe in PySpark to csv?

我正在使用 Spark 1.3.1 (PySpark) 并且我已经使用 SQL 查询生成了一个表。 我现在有一个 object 是一个DataFrame 。 我想将这个DataFrame object(我称之为“表”)导出到一个 csv 文件,这样我就可以操作它和 plot 列。 如何将DataF ...

使用 Spark 加载 CSV 文件

[英]Load CSV file with Spark

我是 Spark 的新手,我正在尝试使用 Spark 从文件中读取 CSV 数据。 这是我在做什么: 我希望这个调用会给我一个文件的前两列的列表,但我收到了这个错误: 文件“”,第 1 行,在 IndexError 中:列表索引超出范围 虽然我的 CSV 文件不止一列。 ...

如何在 PySpark 中将数据框列从 String 类型更改为 Double 类型?

[英]How to change a dataframe column from String type to Double type in PySpark?

我有一个列为字符串的数据框。 我想在 PySpark 中将列类型更改为 Double 类型。 以下是我做的方式: 只是想知道,这是正确的方法吗,因为在运行逻辑回归时,我遇到了一些错误,所以我想知道,这是否是造成麻烦的原因。 ...

如何在spark中将rdd对象转换为数据帧

[英]How to convert rdd object to dataframe in spark

如何将 RDD( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] )转换为数据帧org.apache.spark.sql.DataFrame 。 我使用.rdd将数据帧转换为 rdd 。 处理后我希望它回到数据框中。 我怎样才能做到这一点 ? ...

将pyspark字符串转换为日期格式

[英]Convert pyspark string to date format

我有一个带有MM-dd-yyyy格式的字符串列的日期 pyspark 数据框,我正在尝试将其转换为日期列。 我试过: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() 我得到一串空值。 任何人都可以帮忙吗? ...

加入两个数据框,select 来自一个的所有列和来自另一个的一些列

[英]Join two data frames, select all columns from one and some columns from the other

假设我有一个 spark 数据框df1 ,有几列(其中列id )和数据框df2有两列, id和other 。 有没有办法复制以下命令: 仅使用 pyspark 函数,例如join() 、 select()等? 我必须在 function 中实现此连接,我不想被迫将 sqlContext 作为 fun ...

在 Apache Spark 中将 Dataframe 的列值提取为 List

[英]Extract column values of Dataframe as List in Apache Spark

我想将数据框的字符串列转换为列表。 我可以从Dataframe API 中找到 RDD,所以我尝试先将其转换回 RDD,然后将toArray函数应用于 RDD。 在这种情况下,长度和 SQL 工作得很好。 然而,我从 RDD 得到的结果在每个元素周围都有方括号[A00001] 。 我想知道是否有适当 ...

如何从火花数据框中过滤掉空值

[英]how to filter out a null value from spark dataframe

我使用以下架构在 spark 中创建了一个数据框: 数据如下所示: 我想过滤掉“friend_id”字段中具有空值的行。 我得到 :res52: Long = 0 这显然是不对的。 获得它的正确方法是什么? 还有一个问题,我想替换friend_id 字段中的值。 我想用 0 和 1 替 ...

在 Spark 数据框列中获取最大值的最佳方法

[英]Best way to get the max value in a Spark dataframe column

我试图找出在 Spark 数据帧列中获得最大值的最佳方法。 考虑以下示例: 这创造了: 我的目标是在 A 列中找到最大值(通过检查,这是 3.0)。 使用 PySpark,我可以想到以下四种方法: 以上每个都给出了正确的答案,但在没有 Spark 分析工具的情况下,我无法确定哪个是最好 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM