
[英]How to change dataframe column names in PySpark?
我来自 pandas 背景,习惯于将 CSV 文件中的数据读取到 dataframe 中,然后使用简单命令将列名称简单地更改为有用的名称: 但是,这在使用 sqlContext 创建的 PySpark 数据帧中不起作用。 我能想到的唯一解决方案是轻松地做到这一点: 这基本上是定义变量两次并首先推断 ...
[英]How to change dataframe column names in PySpark?
我来自 pandas 背景,习惯于将 CSV 文件中的数据读取到 dataframe 中,然后使用简单命令将列名称简单地更改为有用的名称: 但是,这在使用 sqlContext 创建的 PySpark 数据帧中不起作用。 我能想到的唯一解决方案是轻松地做到这一点: 这基本上是定义变量两次并首先推断 ...
[英]How can I change column types in Spark SQL's DataFrame?
假设我正在做类似的事情: 但我真的希望year为Int (可能还转换其他一些列)。 我能想到的最好的是 这有点令人费解。 我来自 R,我习惯于能够写,例如 我可能遗漏了一些东西,因为在 Spark/Scala 中应该有更好的方法来做到这一点...... ...
[英]Spark - load CSV file as DataFrame?
我想在 spark 中读取 CSV 并将其转换为 DataFrame 并使用df.registerTempTable("table_name")将其存储在 HDFS 中 我试过了: 我得到的错误: 在 Apache Spark 中将 CSV 文件加载为 DataFrame 的正确命令是什么? ...
[英]Filter Pyspark dataframe column with None value
我正在尝试过滤行值为None的 PySpark dataframe: 我可以使用字符串值正确过滤: 但这失败了: 但是每个类别肯定都有值。 这是怎么回事? ...
[英]Show distinct column values in pyspark dataframe
对于 pyspark dataframe,您如何做相当于 Pandas df['col'].unique()操作。 我想列出 pyspark dataframe 列中的所有唯一值。 不是 SQL 类型的方式(registertemplate 然后 SQL 查询不同的值)。 此外,我不需要groupb ...
[英]Concatenate columns in Apache Spark DataFrame
我们如何连接 Apache Spark DataFrame 中的两列? 我们可以使用 Spark SQL 中的任何函数吗? ...
[英]How to show full column content in a Spark Dataframe?
我正在使用 spark-csv 将数据加载到 DataFrame 中。 我想做一个简单的查询并显示内容: col 似乎被截断了: 如何显示列的全部内容? ...
[英]How to export a table dataframe in PySpark to csv?
我正在使用 Spark 1.3.1 (PySpark) 并且我已经使用 SQL 查询生成了一个表。 我现在有一个 object 是一个DataFrame 。 我想将这个DataFrame object(我称之为“表”)导出到一个 csv 文件,这样我就可以操作它和 plot 列。 如何将DataF ...
[英]Sort in descending order in PySpark
我正在使用 PySpark(Python 2.7.9/Spark 1.3.1)并且有一个数据框 GroupObject,我需要按降序对其进行过滤和排序。 试图通过这段代码来实现它。 但它会引发以下错误。 ...
[英]Load CSV file with Spark
我是 Spark 的新手,我正在尝试使用 Spark 从文件中读取 CSV 数据。 这是我在做什么: 我希望这个调用会给我一个文件的前两列的列表,但我收到了这个错误: 文件“”,第 1 行,在 IndexError 中:列表索引超出范围 虽然我的 CSV 文件不止一列。 ...
[英]How do I add a new column to a Spark DataFrame (using PySpark)?
我有一个 Spark DataFrame(使用 PySpark 1.5.1)并且想添加一个新列。 我尝试了以下方法但没有成功: 使用这个也有错误: 那么如何使用 PySpark 向现有 DataFrame 添加新列(基于 Python 向量)? ...
[英]How to change a dataframe column from String type to Double type in PySpark?
我有一个列为字符串的数据框。 我想在 PySpark 中将列类型更改为 Double 类型。 以下是我做的方式: 只是想知道,这是正确的方法吗,因为在运行逻辑回归时,我遇到了一些错误,所以我想知道,这是否是造成麻烦的原因。 ...
[英]Spark java.lang.OutOfMemoryError: Java heap space
我的集群:1 个主节点,11 个从节点,每个节点有 6 GB 内存。 我的设置: 这是问题所在: 首先,我从 HDFS 读取一些数据(2.19 GB)到 RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) 其次,在这个 RDD 上做一些事 ...
[英]Spark - repartition() vs coalesce()
根据学习火花 请记住,重新分区数据是一项相当昂贵的操作。 Spark 也有一个名为coalesce()的repartition()优化版本,它允许避免数据移动,但前提是您要减少 RDD 分区的数量。 我得到的一个区别是,使用repartition()可以增加/减少分区的数量,但是使用coa ...
[英]How to convert rdd object to dataframe in spark
如何将 RDD( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] )转换为数据帧org.apache.spark.sql.DataFrame 。 我使用.rdd将数据帧转换为 rdd 。 处理后我希望它回到数据框中。 我怎样才能做到这一点 ? ...
[英]Write single CSV file using spark-csv
我正在使用https://github.com/databricks/spark-csv ,我正在尝试编写一个 CSV,但不能,它正在创建一个文件夹。 需要一个 Scala 函数,它将采用路径和文件名等参数并写入该 CSV 文件。 ...
[英]Converting Pandas dataframe into Spark dataframe error
我正在尝试将 Pandas DF 转换为 Spark one。 DF头: 代码: 我得到了一个错误: ...
[英]Convert pyspark string to date format
我有一个带有MM-dd-yyyy格式的字符串列的日期 pyspark 数据框,我正在尝试将其转换为日期列。 我试过: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() 我得到一串空值。 任何人都可以帮忙吗? ...
[英]Join two data frames, select all columns from one and some columns from the other
假设我有一个 spark 数据框df1 ,有几列(其中列id )和数据框df2有两列, id和other 。 有没有办法复制以下命令: 仅使用 pyspark 函数,例如join() 、 select()等? 我必须在 function 中实现此连接,我不想被迫将 sqlContext 作为 fun ...
[英]How to print the contents of RDD?
我正在尝试将集合的内容打印到 Spark 控制台。 我有一个类型: 我使用命令: 但这是打印的: res1:org.apache.spark.rdd.RDD[Unit] = MappedRDD[4] at map at :19 如何将 RDD 写入控制台或将其保存到磁盘以便查看 ...