cost 86 ms
如何向现有增量表添加新分区?

[英]How to add new partition to existing delta table?

我正在尝试修改现有增量表的分区。 我知道如何使用数据帧 API 来做到这一点。我需要使用 SPRAK SQL 来实现类似的事情。有人帮我吗? 当我尝试在命令下运行时 我遇到错误 是否可以在 SPARK SQL 中做同样的事情? ...

在 spark 应用程序中跟踪多个 spark 会话

[英]Tracing multiple spark sessions in spark application

我有一个 java 申请。 在 java 应用程序中,我有 spark 上下文。 在 spark 上下文中,我通过执行 sparkSession.newSession() 创建了多个 spark session。 在任何给定的时间点,都会有 4-5 个会话在运行。 将有多个 sql 查询和连接发生在 ...

在同一列中用另一组基于其他列组的组覆盖一组值

[英]Overwriting group of values with in same column another set of group based on other column group

输入: 下面的查询在 sql 服务器中工作,由于相关的子查询在 spark sql 中不起作用。是否有 spark sql 或 pyspark dataframe 的替代方案。 SELECT Name,groupid,IsProcessed,ngid, CASE WHEN WHEN IS NULL ...

如何从现有 dataframe 中的列之一创建火花 dataframe

[英]How to create a spark dataframe from one of the column in the existing dataframe

要求: 我想从一列(现有的 dataframe )中创建一个 dataframe 。 该列值是多个 json 列表。 问题: 由于 json 没有固定的架构,我无法使用from_json function,因为它在解析列之前需要架构。 例子 预计 output: 对此有什么想法吗? ...

读取多个csv文件,PySpark中每个csv文件的列数不同

[英]Read multiple csv files with different number of columns for each csv file in PySpark

赏金将在 6 天后到期。 此问题的答案有资格获得+100声望赏金。 ForestGump正在寻找此问题的最新答案。 我想使用 PySpark 读取具有不同列数的多个 csv 文件。 f1 文件有 50 列,f2 还有 10 列,总共 60 列,f3 还有 30 列,f3 文件总共有 80 列, ...

pyspark中的DataFilter是什么?

[英]What is DataFilter in pyspark?

我在查询执行计划中看到名为DataFilter的东西: 有一个分区过滤器:[] 推送过滤器:[IsNotNull(product_id)] 数据过滤器:[isnotnull(product_id#12)] 我了解PartitionFilter和PushedFilter 。 但是,这里显示的Data ...

Pyspark - 即使在谓词被下推之后,与扫描后应用的谓词相同的过滤器

[英]Pyspark - Same filter as the predicate applied after scan even after the predicate is getting pushed down

问题:连接两个数据集时,为什么过滤器 isnotnull 在连接键列上应用了两次? 在物理计划中,它曾经作为 PushedFilter 应用,然后在它之后显式应用。 为什么会这样? 代码: ...

使用 spark sql 写入增量表

[英]Writing to delta table using spark sql

在 python 中,我试图在 Databricks 的数据库DB中创建并写入表TBL 。 但我得到一个例外: A schema mismatch detected writing to the Delta table 。 我的代码如下,这里df是一个pandas dataframe。 代码在最后一 ...

RuntimeError:SparkContext 应该只在驱动程序上创建和访问

[英]RuntimeError: SparkContext should only be created and accessed on the driver

我正在尝试执行以下代码,因为我需要查找表并从中创建一个新列。 所以,我正在尝试使用 udf 连接 go,因为加入没有成功。 在那里,我收到RuntimeError: SparkContext should only be created and accessed on the driver. 错误。 ...

Spark CVS 加载 - 自定义架构 - 自定义 object

[英]Spark CVS load - custom schema - custom object

我的 CVS 是这样的—— 我正在日志中打印我的模式 -(你看,列现在被翻转或排序 - 啊!) 我遇到错误 这就是我的Tranaction的样子。 问题 - 为什么 Spark 无法匹配我的模式? 顺序乱了在我的 CSV 中,我传递了 transactionid、accountId,但 spark ...

如何将复杂的嵌套 JSON 结构翻译成 Spark 中的多列 DataFrame

[英]How to translate a complex nested JSON structure into multiple columns in a Spark DataFrame

我正在学习 Scala,并试图从一个大的嵌套 json 文件中过滤 select 几列,以生成 DataFrame。这是 json 的要点: 因此,数据看起来像这样,用 spark 读入。 而不是这个,我想要一个 DataFrame 的列:名称 | 聚会 | 党团会议。 我搞砸了 explode( ...

Spark window 聚合 function 不能直观地处理记录排序

[英]Spark window aggregate function not working intuitively with records ordering

我有以下在 Spark 3.3 上运行的示例 output 符合预期,我得到每个 window 的正确最小值/最大值 当我将 orderBy 添加到 window 时,output 是不同的: 如您所见,使用 desc 排序 max_value 没问题,但 min_value 正在从一条记录更改到 ...

计算从列表中获取特定列的行的平均值并将平均值列添加到 pyspark dataframe

[英]Calculating mean of rows taking specific columns from a list and adding the mean column to pyspark dataframe

我有一个 pyspark dataframe,列为“A”、“B”和“C”、“D”。 我想添加一个具有行平均值的列。 但条件是需要计算平均值的列名(在行级别)应该取自列表 l=["A","C"]。 该列表的原因是列名称和编号可能会有所不同,因此我需要它是灵活的。 例如。 对于 cols l=["A" ...

使用 pandas/pyspark 计算球队参加的比赛总数,当它同时出现在 HomeTeam 和 Away Team col 中时

[英]Calculate total number of matches played by team ,When it is present in both HomeTeam and Away Team col using pandas/pyspark

项目清单使用 pandas/pyspark 计算球队参加的比赛总数,当它同时出现在 HomeTeam 和 Away Team col 中时我虽然使用加入。 首先,我将 HomeTeam 分组并获得 HomeTeam 和客队比赛次数的结果。 然后根据团队名称加入他们。 有没有更好的方法我附上了data ...

使用 PySpark 根据年龄生成子样本

[英]Generate subsample based on age using PySpark

我想根据年龄收集样本,条件是失败状态。 我对 3 天前的序列号感兴趣。 但是,我不需要少于 3 天的健康序列号,但我想包括所有少于 3 天或刚好 3 天的失败序列号。 例如,C 在 1 月 3 日失败,因此我需要在我的新样本中包括序列号 C 的 1 月 1 日和 2 日。 系列 D 在 1 月 4 ...

我如何在 Pyspark DF 中使用 .startswith 来替换单元格的整个值,而不仅仅是匹配的字符串?

[英]How can I use .startswith in a Pyspark DF to replace the ENTIRE value of the cell instead of just the matching string?

我正在尝试为此做一些事情: 名称地位账单 2023 年 1 月 1 日取消吉姆积极的金维修杆 1999 年 5 月 1 日取消钛积极的梅格无故取消 名称地位账单排除吉姆积极的金维修杆排除钛积极的梅格排除我不确定我写的是否正确。 但最终结果是我正在努力的方向。 我知道regexp_replace() ...

联合循环 Pyspark

[英]Union in loop Pyspark

我有两个数据框 我只想将特定语言行从 sdf2 添加到第一个 dataframe。我用一个循环来完成: 但它只附加 langs 中最后一种语言的行 ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM