
[英]Adding missing dates to the DataFrame and filling it with zero in specific columns
我想用 pyspark dataframe 中当前不存在的日期的空值填充我的数据。这种填充仅适用于另一个 dataframe 中列出的月份。 有两个数据框的例子: 第一个df X 是 Z 日期 val1 值2 25 46 63 2016-01-31 吨是 23 41 63 2016- ...
[英]Adding missing dates to the DataFrame and filling it with zero in specific columns
我想用 pyspark dataframe 中当前不存在的日期的空值填充我的数据。这种填充仅适用于另一个 dataframe 中列出的月份。 有两个数据框的例子: 第一个df X 是 Z 日期 val1 值2 25 46 63 2016-01-31 吨是 23 41 63 2016- ...
[英]Pyspark add columns to existing dataframe
我有以下代码来实现在单个 dataframe 中具有多个条件列。small_list = ["INFY","TCS", "SBIN", "ICICIBANK"] frame = spark_frame.where(col("symbol") == small_list[0]).select('cl ...
[英]How to get columns to show in select statement spark scala
我将下面的代码用于 2 个表中的 select 列。 我正在使用 spark scala 2.11.11 并运行,但是,它只会返回 package id 和包数。 我需要在结果集中查看 package id、包裹数量、名字和姓氏。 我的代码中缺少什么? ...
[英]PySpark, save unique letters in strings of a column
我使用的是 PySpark,我想要一种简单的方法来完成下一个过程,而不会过于复杂。 假设我有一个看起来像这样的表: ID 信件 1个 a,b,c,d 2个乙,乙,乙 3个 c,你,你我想从“字母”列中获取此 dataframe 中的唯一字母,这将是:List = [a,b,c,d,y,u]。 我 ...
[英]How to read csv file from GCS using spark-java?
我正在尝试使用 spark 读取存储在 GCS 中的 csv 文件,我有一个简单的 spark java 项目,它除了读取 csv 之外什么都不做。其中使用了以下代码。 但它会抛出一个错误: 任何人都可以帮助我吗? 我只想使用 spark 从 GCS 读取 csv。 提前致谢:) ...
[英]Spark dataframe : When does it materialize?
我有一个火花问题: 我有一份工作出错了: 403 Access Denied on S3 火花工作基本上是: 从 Glue Catalog 的 LF 资源链接表中获取数据创建临时视图运行一堆转换将数据存储在外部位置在进行大量转换的第 3 步中,我偶尔会遇到错误。 我说零星的,因为有时我不会得到任何 ...
[英]Spark - SparkContext shutdown while executing save_view on large dataset
我试图执行一个 spark 作业,但在使用 save_view 保存它时,我面临 spark 上下文关闭。 尝试使用 save_view 存储 spark 数据时出现以下错误 ...
[英]Table created with "stored as Parquet" option using PySpark SQL or Hive does not actually store data files in Parquet format
我使用 PySpark SQL 在 Hadoop 集群上创建表: spark.sql("CREATE TABLE my_table (...) PARTITIONED BY (...) STORED AS Parquet")并加载一些数据: spark.sql("INSERT INTO my_tab ...
[英]How does spark calculate the number of reducers in a hash shuffle?
我想了解 Spark 中的哈希随机播放。 我正在阅读这篇文章 Hash Shuffle:每个 mapper 任务为每个单独的 reducer 创建单独的文件,导致集群上的文件总数为 M * R,其中 M 是“映射器”的数量,R 是“reducer”的数量。 对于大量的映射器和缩减器,这会导致很大的 ...
[英]PySpark SparkSession error when trying to write parquet files to S3 bucket: org.apache.spark.SparkException: Task failed while writing rows
Spark 和整个数据工程的新手。 我编写了一个 Spark 应用程序(在我的本地),它旨在使用 Spark SQL 将镶木地板文件推送到 S3 存储桶。 我的代码在文件中此时失败: 配置: 失败的部分代码(其中 calendar_dim 等是 spark.sql 数据帧): 完整错误: 我可以确 ...
[英]Error when trying to count and show total of count in date column in Spark Scala 2.11.11
我加入了 2 个表并且工作正常,但是当我尝试格式化日期列以获取日期计数的总和时,我在.withColumnRenamed行之后的下一行中收到错误消息。 我想显示 Package ID、包裹数量、名字、姓氏。 我正在尝试显示交付给他们的包裹最多的前 100 人的列表。 任何人都可以帮助解决我做错的事情 ...
[英]Pyspark AND/ALSO Partition Column Query
你如何在 pyspark 中执行 AND/ALSO 查询? 我希望满足这两个条件才能过滤结果。 原始数据框:df.count() 4105 第一个条件没有找到任何记录:df.filter((df.created_date != 'add')).count() 4105 因此,我希望此处的 AND ...
[英]Compare a column of two data frames and replace the the value from a different in Dataframe to other dataframe
我有两个数据框 DF1 - {BranchID, ManagerJobcode, Managerlocation} DF2 - {Managerjobcode, ManagerID} 我需要将DF1.ManagerJobcode与DF2.Managerjobcode匹配。 如果值相等,将DF1.M ...
[英]How to change specific value in a row, using dictionary and conditions?
我想根据同一行中其他列的值更改一个特定行中的值。 我尝试使用方法.withColumn()但它没有按我想要的那样工作。 我想要得到的 - 当对象在数据框中有日期时设置标志1就像在给定的字典中一样:objects_ = {'x': [datetime.date(2010, 1, 1), dateti ...
[英]How to set "spark.sql.shuffle.partitions" to auto
我的要求是设置spark.sql.shuffle.partitions=auto 但是我在运行以下代码时遇到以下错误 ...
[英]Reading Excel files with multiple sheets and merged Columns
我有以下Excel格式的数据: 我想将其读入 Dataframe (Python / Pyspark) 我遇到的问题是合并的单元格显示为“空”值,即使在使用以下代码后,我也无法将前 5 列合并为 Single。 我想要的只是跳过前 8 行(作为报告标题和描述)并读取从 9 开始的单元格(带有列标题 ...
[英]How to pivot specific columns while grouping other columns (SQL)
我正在 Azure Databricks 环境中处理 SQL 查询,其中考虑以下数据集: 客户编号访问ID 渠道转换指数价值 123 abc123 谷歌 1个 11 1250 123 abc123 谷歌 1个 22 25000 123 abc123 谷歌 1个 33 1K 和 3K ...
[英]Need to split a string containing numbers and alphabets into two
我正在尝试拆分 pyspark 数据框中列的值。 考虑到列大小具有“15ML”、“20GM”等值。我希望它们以这样的方式拆分,拆分后的输出值变为“15 ML”和“20 GM”。 所以,基本上我试图拆分数值和它的单位。 请通过证明此问题的解决方案来帮助我。 我已经插入了样本数据和我需要的最终列格式。 ...
[英]How to merge to local datasets in spark scala 2.11.11
我有 2 个本地文件正在读入 spark scala 2.11.11。 第一个文件有 5 列,第二个文件有 3 列。 两个文件中都有一个 id 列。 我试过使用合并功能,但是,那是行不通的。 有人可以帮我合并这两个文件并显示前 100 条记录吗? 期望的输出: ...
[英]Unable to kill Running Queries in Spark UI and Write to sql server never happens
我有一个简单的代码,它将读取整个 Hive 表并将其加载到 Azure Databricks 中的 SQL 服务器。 在执行此单元时,该命令会持续运行几分钟。 我无力杀人。 因为在 SparkUI 中既没有创建 Job 也没有创建 Stage。 我只能看到正在运行的查询 (1)。 没有选择杀。 如果 ...