cost 24 ms
增量表中的数据不会随着覆盖选项而改变?

我正在具有外部位置的数据框之上创建一个增量表。 我试图覆盖增量表,但增量表中的数据正在被覆盖,但增量湖 gen2 中带下划线的数据没有改变。 如何用数据覆盖增量表。 下面是我使用的代码。 在 datalake gen2 中创建增量表 将数据写入增量表 ...

2022-07-02 17:58:38 0 21
Spark 与异常编码的 CSV 文件不一致

作为数据管道的一部分,我正在处理一些平面 CSV 文件。 这些文件具有不寻常的编码和转义规则。 我的意图是对这些进行预处理并转换为镶木地板以用于后续的管道步骤。 MCVE: spark = SparkSession.builder.appName("...").getOrCreat ...

2022-07-01 20:49:55 1 37
如何将火花数据帧重新分区为更小的分区

我有一个按日期分区的数据框。 在正常处理中,我一次处理一周的数据,所以这意味着我有 7 个分区。 我想增加这个分区数,但不必在同一个分区中混洗数据或混合日期。 我试过使用df.repartition(20, my_date_column) ,但这只会导致 13 个空分区,因为哈希分区器只会得到 7 ...

2022-07-01 14:34:07 1 40
AnalysisException:路径不存在:使用 colab 运行 github 代码时

我在 google colab 中运行用于签名检测的 github 代码,并且在代码图像中被读取为二进制文件,以便使用 spark 进行进一步处理。 该图像位于一个文件夹中,该文件夹与代码所属的路径相同。 我正进入(状态 代码路径:jupyter/ 图片路径:jupyter/data ...

2022-07-01 11:41:04 0 11
Pyspark 条件运行窗口

我有一个看起来像这样的数据框 我想添加另一列,它是一个行号/排名,如果开始时间和结束时间之间的差异大于 1 秒,它会增加。 所以,预期的结果应该是这样的 ...

2022-07-01 11:13:22 1 38
在 PySpark 中“加入”操作后无法对结果数据帧执行操作

在这里,我创建了三个数据框:df、rule_df 和 query_df。 我已经对 rule_df 和 query_df 执行了内部连接,并将结果数据帧存储在 join_df 中。 但是,当我尝试简单地打印 join_df 数据框的列时,出现以下错误- 结果数据帧的行为不一样,我无法对其执行 ...

2022-07-01 11:09:37 1 20
将 None 添加到 PySpark 数组

我想创建一个基于现有列有条件地填充的数组,有时我希望它包含None 。 这是一些示例代码: from pyspark.sql import Row from pyspark.sql import SparkSession from pyspark.sql.functions import when, ...

2022-07-01 09:09:14 2 37
为什么具有 1 个大行的 Spark 数据帧需要很长时间才能写入?

我有一个只有 1 行的数据框,但该行的大小约为 1 GB。 写它需要很长时间。 我的工作因此运行了大约一个小时,这正常吗? 我在写之前做了 coalesce(10) ,它没有帮助。 我认为围绕数据行合并和重新分区洗牌,对吗? 但在这种情况下,只有 1 行,所以数据偏斜仍然存在。 我该如何解决这个 ...

2022-07-01 00:06:14 0 17
将 Spark 数据帧保存到 Azure Databricks 中的增量表时丢失数据格式

当我尝试将 Spark Dataframe 作为增量表保存到 Azure Databricks Delta Lake 时,我的所有数据类型都变成了字符串。 此外,曾经是日期时间类型的列中的所有日期都会被打乱,没有可识别的模式。 有谁知道为什么会发生这种情况以及如何防止它? 日期随机播放 ...

2022-06-30 18:26:03 1 20
没有可用于字符串的 TypeTag

我正在尝试使用scala -classpath "target/scala-2.13/Capstone-assembly-0.1.0-SNAPSHOT.jar" src/main/scala/project/Main.scala运行我的胖 jar,但我得到一个错误导致by .toString: va ...

2022-06-30 13:32:14 0 31
将带有 JSON 字符串的列拆分为每个包含字符串中的一个键值对的列

我有一个看起来像这样的数据框(一个名为“value”的列,其中包含一个 JSON 字符串)。 我使用 Kafka API 将其发送到事件中心,然后我想从事件中心读取该数据并对其应用一些转换。 数据以二进制格式接收,如 Kafka 文档中所述。 以下是 CSV 格式的几列: 我想要做的是应用 ...

2022-06-30 12:22:11 5 69
Pyspark 读取所有文件并在转换后将其写回同一文件

嗨,我在目录 Folder/1.csv Folder/2.csv Folder/3.csv 中有文件 我想在 pyspark 数据帧/rdd 中读取所有这些文件并更改一些列值并将其写回同一个文件。 我已经尝试过了,但它在文件夹 part_000 中创建了新文件,但我想在修改列值后将数据写入同一个文件 ...

2022-06-30 12:19:17 1 29
在spark中以csv格式写入文件时时间戳格式发生变化

我正在使用 spark write 将数据写入本地 下面是代码 现在,当我执行 show spark_raw_5.show()时,它会显示正确的时间戳,即 但是当我将这些数据写入我的本地并将其打开到 excel 中时,它会向我显示一个完全不同的时间戳,这是不被接受的。 输出: 请帮助我 ...

2022-06-30 10:57:04 0 20

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM