cost 99 ms
Spark 2.3 Stream-Stream Join 丢失左表键 - Spark 2.3 Stream-Stream Join lost left table key

我正在尝试使用 Spark 2.3.0 实现流连接玩具当条件匹配时,stream 连接工作正常,但即使使用 leftOuterJoin,条件不匹配时也会丢失左 stream 值。 提前致谢这是我的源代码和数据,基本上,我正在创建两个 sockets,一个是 9999 作为右侧 stream 源,99 ...

在 Spark 中找到最长的连续条纹 - Find Longest Continuous Streak In Spark

我有一个像这样的单列 dataframe 我必须得到最长的连续时间段的开始日期和结束日期。 所以在上面的例子中,我有一个像这样的 output 我的方法:对数据进行排序并找到前一行的滞后,每当滞后 > 1 时,重置周期长度但我无法找到在特定条件下重置周期的方法。 我正在使用火花 2.3 ...

SparkSession.catalog.clearCache() 可以从 hdfs 中删除数据吗? - Can SparkSession.catalog.clearCache() delete data from hdfs?

自从我们从 CDH 迁移到 HDP(spark 2.2 到 2.3)后,我遇到了一些数据删除问题。 这些表是从 hdfs 位置读取的,在运行读取和处理这些表的 spark 作业一段时间后,它会抛出table not found 异常,当我们检查该位置时,所有记录都消失了。 在读取该表之前我看到的 ...

SparkSubmitOperator vs SSHOperator 用于在 airflow 中提交 pyspark 应用程序 - SparkSubmitOperator vs SSHOperator for submitting pyspark applications in airflow

我有不同的 spark 和 airflow 服务器。 而且我在 airflow 服务器中没有 spark 二进制文件。 我能够很好地使用 SSHOperator 并在集群模式下运行 spark 作业。 我想知道从长远来看,使用 SSHOperator 或 SparkSubmitOperator 提交 ...

优化读取数据以激发 Azure blob - Optimizing reading data to spark from Azure blob

我们将数据驻留在 Azure blob 存储中的表中,该表充当数据湖。 数据每 30 分钟摄取一次,从而在 UTC 中形成如下时间分区 用于捕获数据的文件格式是 orc,并且时间分区内的数据分区大小相同。 我们的用例是使用 Spark (V 2.3) 在 IST 中捕获日级别的数据进行处理。 ...

Janusgraph 库无法在 kerberos 环境中与 hbase 通信(无法指定服务器的 Kerberos 主体名称) - Janusgraph libs cant communicate with hbase in kerberos environment(Failed to specify server's Kerberos principal name)

尝试在 kerberos hadoop 集群中使用 janusgraph 连接到 habse 时,出现“无法指定服务器的 Kerberos 主体名称” 首先是一些环境信息 - 操作系统:7.6.1810 Java:1.8.0_191-b12 火花:2.3.2.3.1.0.78-4 纱线:2.5. ...

Pyspark自联接,错误为“缺少已解决的属性” - Pyspark self-join with error “Resolved attribute(s) missing”

在执行pyspark数据帧自联接时,出现错误消息: 这是一个简单的数据帧自连接,如下所示,它可以正常工作,但是在对数据帧进行了几次操作(如添加列或与其他数据帧连接)后,就会出现上述错误。 使用像波纹管这样的数据框别名也不起作用,并且会出现相同的错误消息: ...

Spark(2.3)无法识别通过 Hive Alter Table 命令添加的 Parquet 表中的新列 - Spark(2.3) not able to identify new columns in Parquet table added via Hive Alter Table command

我有一个使用 Spark 2.3 API df.saveAstable创建的 Hive Parquet 表。 有一个单独的 Hive 进程可以更改同一个 parquet 表以添加列(根据要求)。 但是,下次当我尝试将同一个 parquet 表读入 Spark 数据帧时,使用 Hive Alter T ...

将DataFrame写为镶木地板会创建空文件 - Writing DataFrame as parquet creates empty files

我正在尝试使用bucketing技术为Spark作业进行一些性能优化。 我正在阅读.parquet和.csv文件并进行一些转换。 在我进行分组并加入两个DataFrame之后。 然后我写了加入DF到实木复合地板,但我有一个~500B而不是500Mb的空文件。 Cloudera(c ...

使用现有列在pyspark数据框中创建新列 - create new column in pyspark dataframe using existing columns

我正在尝试使用pyspark数据框,我想知道如何使用现有列创建和填充新列。 可以说我有一个像这样的数据框: 我正在寻找创建像这样的数据框的方法: _4只是从_1中删除的“-”,而_5使用了_1和_3中的值 我正在使用spark-2.3.3和python 2.7 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM