
[英]How to add new partition to existing delta table?
我正在尝试修改现有增量表的分区。 我知道如何使用数据帧 API 来做到这一点。我需要使用 SPRAK SQL 来实现类似的事情。有人帮我吗? 当我尝试在命令下运行时 我遇到错误 是否可以在 SPARK SQL 中做同样的事情? ...
[英]How to add new partition to existing delta table?
我正在尝试修改现有增量表的分区。 我知道如何使用数据帧 API 来做到这一点。我需要使用 SPRAK SQL 来实现类似的事情。有人帮我吗? 当我尝试在命令下运行时 我遇到错误 是否可以在 SPARK SQL 中做同样的事情? ...
[英]Tracing multiple spark sessions in spark application
我有一个 java 申请。 在 java 应用程序中,我有 spark 上下文。 在 spark 上下文中,我通过执行 sparkSession.newSession() 创建了多个 spark session。 在任何给定的时间点,都会有 4-5 个会话在运行。 将有多个 sql 查询和连接发生在 ...
[英]Overwriting group of values with in same column another set of group based on other column group
输入: 下面的查询在 sql 服务器中工作,由于相关的子查询在 spark sql 中不起作用。是否有 spark sql 或 pyspark dataframe 的替代方案。 SELECT Name,groupid,IsProcessed,ngid, CASE WHEN WHEN IS NULL ...
[英]How to create a spark dataframe from one of the column in the existing dataframe
要求: 我想从一列(现有的 dataframe )中创建一个 dataframe 。 该列值是多个 json 列表。 问题: 由于 json 没有固定的架构,我无法使用from_json function,因为它在解析列之前需要架构。 例子 预计 output: 对此有什么想法吗? ...
[英]Read multiple csv files with different number of columns for each csv file in PySpark
赏金将在 6 天后到期。 此问题的答案有资格获得+100声望赏金。 ForestGump正在寻找此问题的最新答案。 我想使用 PySpark 读取具有不同列数的多个 csv 文件。 f1 文件有 50 列,f2 还有 10 列,总共 60 列,f3 还有 30 列,f3 文件总共有 80 列, ...
[英]What is DataFilter in pyspark?
我在查询执行计划中看到名为DataFilter的东西: 有一个分区过滤器:[] 推送过滤器:[IsNotNull(product_id)] 数据过滤器:[isnotnull(product_id#12)] 我了解PartitionFilter和PushedFilter 。 但是,这里显示的Data ...
[英]Pyspark - Same filter as the predicate applied after scan even after the predicate is getting pushed down
问题:连接两个数据集时,为什么过滤器 isnotnull 在连接键列上应用了两次? 在物理计划中,它曾经作为 PushedFilter 应用,然后在它之后显式应用。 为什么会这样? 代码: ...
[英]Writing to delta table using spark sql
在 python 中,我试图在 Databricks 的数据库DB中创建并写入表TBL 。 但我得到一个例外: A schema mismatch detected writing to the Delta table 。 我的代码如下,这里df是一个pandas dataframe。 代码在最后一 ...
[英]RuntimeError: SparkContext should only be created and accessed on the driver
我正在尝试执行以下代码,因为我需要查找表并从中创建一个新列。 所以,我正在尝试使用 udf 连接 go,因为加入没有成功。 在那里,我收到RuntimeError: SparkContext should only be created and accessed on the driver. 错误。 ...
[英]Delete rows from Pyspark Dataframe which match to header
我有一个巨大的 dataframe 类似于: 它有与 header 匹配的行,我想删除所有行,这样结果将是: 我试图用.distinct()方法摆脱它们,但总是留下一个。 我该怎么做? ...
[英]Spark SQL Correlated scalar sub-queries can only be used in a Filter/Aggregate/Project
我正在尝试在 Spark 结构化流中加入拖流数据。 数据结构如下: 表:持卡人 卡号分配时间受让人 1个 01/01/2023 01:00:00 用户 1 1个 01/01/2023 01:00:05 用户 2 1个 01/01/2023 01:00:10 用户 3 表:CardTransact ...
[英]Spark CVS load - custom schema - custom object
我的 CVS 是这样的—— 我正在日志中打印我的模式 -(你看,列现在被翻转或排序 - 啊!) 我遇到错误 这就是我的Tranaction的样子。 问题 - 为什么 Spark 无法匹配我的模式? 顺序乱了在我的 CSV 中,我传递了 transactionid、accountId,但 spark ...
[英]How to translate a complex nested JSON structure into multiple columns in a Spark DataFrame
我正在学习 Scala,并试图从一个大的嵌套 json 文件中过滤 select 几列,以生成 DataFrame。这是 json 的要点: 因此,数据看起来像这样,用 spark 读入。 而不是这个,我想要一个 DataFrame 的列:名称 | 聚会 | 党团会议。 我搞砸了 explode( ...
[英]Spark window aggregate function not working intuitively with records ordering
我有以下在 Spark 3.3 上运行的示例 output 符合预期,我得到每个 window 的正确最小值/最大值 当我将 orderBy 添加到 window 时,output 是不同的: 如您所见,使用 desc 排序 max_value 没问题,但 min_value 正在从一条记录更改到 ...
[英]Calculating mean of rows taking specific columns from a list and adding the mean column to pyspark dataframe
我有一个 pyspark dataframe,列为“A”、“B”和“C”、“D”。 我想添加一个具有行平均值的列。 但条件是需要计算平均值的列名(在行级别)应该取自列表 l=["A","C"]。 该列表的原因是列名称和编号可能会有所不同,因此我需要它是灵活的。 例如。 对于 cols l=["A" ...
[英]How to do similar type of columns addition in Pyspark?
我想添加类似类型的列(总列数超过 100),如下所示: ID b c d b_apac c_apac d_apac A B C D 3个 5个 null 45 9 1个 bcd 13 15 1个 45 2个 10 光盘 32 null 6个 45 90后 1个 ...
[英]Calculate total number of matches played by team ,When it is present in both HomeTeam and Away Team col using pandas/pyspark
项目清单使用 pandas/pyspark 计算球队参加的比赛总数,当它同时出现在 HomeTeam 和 Away Team col 中时我虽然使用加入。 首先,我将 HomeTeam 分组并获得 HomeTeam 和客队比赛次数的结果。 然后根据团队名称加入他们。 有没有更好的方法我附上了data ...
[英]Generate subsample based on age using PySpark
我想根据年龄收集样本,条件是失败状态。 我对 3 天前的序列号感兴趣。 但是,我不需要少于 3 天的健康序列号,但我想包括所有少于 3 天或刚好 3 天的失败序列号。 例如,C 在 1 月 3 日失败,因此我需要在我的新样本中包括序列号 C 的 1 月 1 日和 2 日。 系列 D 在 1 月 4 ...
[英]How can I use .startswith in a Pyspark DF to replace the ENTIRE value of the cell instead of just the matching string?
我正在尝试为此做一些事情: 名称地位账单 2023 年 1 月 1 日取消吉姆积极的金维修杆 1999 年 5 月 1 日取消钛积极的梅格无故取消 名称地位账单排除吉姆积极的金维修杆排除钛积极的梅格排除我不确定我写的是否正确。 但最终结果是我正在努力的方向。 我知道regexp_replace() ...
[英]Union in loop Pyspark
我有两个数据框 我只想将特定语言行从 sdf2 添加到第一个 dataframe。我用一个循环来完成: 但它只附加 langs 中最后一种语言的行 ...