cost 335 ms
将缺失日期添加到 DataFrame 并在特定列中用零填充

[英]Adding missing dates to the DataFrame and filling it with zero in specific columns

我想用 pyspark dataframe 中当前不存在的日期的空值填充我的数据。这种填充仅适用于另一个 dataframe 中列出的月份。 有两个数据框的例子: 第一个df X 是 Z 日期 val1 值2 25 46 63 2016-01-31 吨是 23 41 63 2016- ...

Pyspark 添加列到现有 dataframe

[英]Pyspark add columns to existing dataframe

我有以下代码来实现在单个 dataframe 中具有多个条件列。small_list = ["INFY","TCS", "SBIN", "ICICIBANK"] frame = spark_frame.where(col("symbol") == small_list[0]).select('cl ...

如何让列显示在 select 语句 spark scala

[英]How to get columns to show in select statement spark scala

我将下面的代码用于 2 个表中的 select 列。 我正在使用 spark scala 2.11.11 并运行,但是,它只会返回 package id 和包数。 我需要在结果集中查看 package id、包裹数量、名字和姓氏。 我的代码中缺少什么? ...

PySpark,在一列的字符串中保存唯一字母

[英]PySpark, save unique letters in strings of a column

我使用的是 PySpark,我想要一种简单的方法来完成下一个过程,而不会过于复杂。 假设我有一个看起来像这样的表: ID 信件 1个 a,b,c,d 2个乙,乙,乙 3个 c,你,你我想从“字母”列中获取此 dataframe 中的唯一字母,这将是:List = [a,b,c,d,y,u]。 我 ...

如何使用 spark-java 从 GCS 读取 csv 文件?

[英]How to read csv file from GCS using spark-java?

我正在尝试使用 spark 读取存储在 GCS 中的 csv 文件,我有一个简单的 spark java 项目,它除了读取 csv 之外什么都不做。其中使用了以下代码。 但它会抛出一个错误: 任何人都可以帮助我吗? 我只想使用 spark 从 GCS 读取 csv。 提前致谢:) ...

Spark 数据框:它什么时候实现?

[英]Spark dataframe : When does it materialize?

我有一个火花问题: 我有一份工作出错了: 403 Access Denied on S3 火花工作基本上是: 从 Glue Catalog 的 LF 资源链接表中获取数据创建临时视图运行一堆转换将数据存储在外部位置在进行大量转换的第 3 步中,我偶尔会遇到错误。 我说零星的,因为有时我不会得到任何 ...

使用 PySpark SQL 或 Hive 通过“存储为 Parquet”选项创建的表实际上并不以 Parquet 格式存储数据文件

[英]Table created with "stored as Parquet" option using PySpark SQL or Hive does not actually store data files in Parquet format

我使用 PySpark SQL 在 Hadoop 集群上创建表: spark.sql("CREATE TABLE my_table (...) PARTITIONED BY (...) STORED AS Parquet")并加载一些数据: spark.sql("INSERT INTO my_tab ...

spark如何计算hash shuffle中reducer的数量?

[英]How does spark calculate the number of reducers in a hash shuffle?

我想了解 Spark 中的哈希随机播放。 我正在阅读这篇文章 Hash Shuffle:每个 mapper 任务为每个单独的 reducer 创建单独的文件,导致集群上的文件总数为 M * R,其中 M 是“映射器”的数量,R 是“reducer”的数量。 对于大量的映射器和缩减器,这会导致很大的 ...

尝试将镶木地板文件写入 S3 存储桶时出现 PySpark SparkSession 错误:org.apache.spark.SparkException:写入行时任务失败

[英]PySpark SparkSession error when trying to write parquet files to S3 bucket: org.apache.spark.SparkException: Task failed while writing rows

Spark 和整个数据工程的新手。 我编写了一个 Spark 应用程序(在我的本地),它旨在使用 Spark SQL 将镶木地板文件推送到 S3 存储桶。 我的代码在文件中此时失败: 配置: 失败的部分代码(其中 calendar_dim 等是 spark.sql 数据帧): 完整错误: 我可以确 ...

尝试在 Spark Scala 2.11.11 中的日期列中计算和显示总计数时出错

[英]Error when trying to count and show total of count in date column in Spark Scala 2.11.11

我加入了 2 个表并且工作正常,但是当我尝试格式化日期列以获取日期计数的总和时,我在.withColumnRenamed行之后的下一行中收到错误消息。 我想显示 Package ID、包裹数量、名字、姓氏。 我正在尝试显示交付给他们的包裹最多的前 100 人的列表。 任何人都可以帮助解决我做错的事情 ...

Pyspark AND/ALSO 分区列查询

[英]Pyspark AND/ALSO Partition Column Query

你如何在 pyspark 中执行 AND/ALSO 查询? 我希望满足这两个条件才能过滤结果。 原始数据框:df.count() 4105 第一个条件没有找到任何记录:df.filter((df.created_date != 'add')).count() 4105 因此,我希望此处的 AND ...

如何使用字典和条件连续更改特定值?

[英]How to change specific value in a row, using dictionary and conditions?

我想根据同一行中其他列的值更改一个特定行中的值。 我尝试使用方法.withColumn()但它没有按我想要的那样工作。 我想要得到的 - 当对象在数据框中有日期时设置标志1就像在给定的字典中一样:objects_ = {'x': [datetime.date(2010, 1, 1), dateti ...

读取包含多个工作表和合并列的 Excel 文件

[英]Reading Excel files with multiple sheets and merged Columns

我有以下Excel格式的数据: 我想将其读入 Dataframe (Python / Pyspark) 我遇到的问题是合并的单元格显示为“空”值,即使在使用以下代码后,我也无法将前 5 列合并为 Single。 我想要的只是跳过前 8 行(作为报告标题和描述)并读取从 9 开始的单元格(带有列标题 ...

需要将包含数字和字母的字符串分成两部分

[英]Need to split a string containing numbers and alphabets into two

我正在尝试拆分 pyspark 数据框中列的值。 考虑到列大小具有“15ML”、“20GM”等值。我希望它们以这样的方式拆分,拆分后的输出值变为“15 ML”和“20 GM”。 所以,基本上我试图拆分数值和它的单位。 请通过证明此问题的解决方案来帮助我。 我已经插入了样本数据和我需要的最终列格式。 ...

如何合并到 spark scala 2.11.11 中的本地数据集

[英]How to merge to local datasets in spark scala 2.11.11

我有 2 个本地文件正在读入 spark scala 2.11.11。 第一个文件有 5 列,第二个文件有 3 列。 两个文件中都有一个 id 列。 我试过使用合并功能,但是,那是行不通的。 有人可以帮我合并这两个文件并显示前 100 条记录吗? 期望的输出: ...

无法终止 Spark UI 中的运行查询并写入 sql 服务器永远不会发生

[英]Unable to kill Running Queries in Spark UI and Write to sql server never happens

我有一个简单的代码,它将读取整个 Hive 表并将其加载到 Azure Databricks 中的 SQL 服务器。 在执行此单元时,该命令会持续运行几分钟。 我无力杀人。 因为在 SparkUI 中既没有创建 Job 也没有创建 Stage。 我只能看到正在运行的查询 (1)。 没有选择杀。 如果 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM