我正在尝试使用 Spark 2.3.0 实现流连接玩具当条件匹配时,stream 连接工作正常,但即使使用 leftOuterJoin,条件不匹配时也会丢失左 stream 值。 提前致谢这是我的源代码和数据,基本上,我正在创建两个 sockets,一个是 9999 作为右侧 stream 源,99 ...
我正在尝试使用 Spark 2.3.0 实现流连接玩具当条件匹配时,stream 连接工作正常,但即使使用 leftOuterJoin,条件不匹配时也会丢失左 stream 值。 提前致谢这是我的源代码和数据,基本上,我正在创建两个 sockets,一个是 9999 作为右侧 stream 源,99 ...
我有一个 dataframe 单列如下。 我正在使用 pyspark 版本 2.3 写入 csv。 默认情况下,代码的 output 是 如何删除外部引号? 我尝试过 option('quoteAll','false') 和 option('quote',None) 都不起作用。 ...
我有一个像这样的单列 dataframe 我必须得到最长的连续时间段的开始日期和结束日期。 所以在上面的例子中,我有一个像这样的 output 我的方法:对数据进行排序并找到前一行的滞后,每当滞后 > 1 时,重置周期长度但我无法找到在特定条件下重置周期的方法。 我正在使用火花 2.3 ...
自从我们从 CDH 迁移到 HDP(spark 2.2 到 2.3)后,我遇到了一些数据删除问题。 这些表是从 hdfs 位置读取的,在运行读取和处理这些表的 spark 作业一段时间后,它会抛出table not found 异常,当我们检查该位置时,所有记录都消失了。 在读取该表之前我看到的 ...
我遇到了一个叫做LivyBatchOperator的东西,但找不到一个很好的例子来提交 airflow 中的 pyspark 应用程序。 任何有关此的信息将不胜感激。 提前致谢。 ...
我有不同的 spark 和 airflow 服务器。 而且我在 airflow 服务器中没有 spark 二进制文件。 我能够很好地使用 SSHOperator 并在集群模式下运行 spark 作业。 我想知道从长远来看,使用 SSHOperator 或 SparkSubmitOperator 提交 ...
我有一个 DataFrame 有两列数组值,如下所示 我想将其转换为如下所示的对数组 我想我可以使用 struct 然后使用一些 udf。 但我想知道是否有任何内置的高阶方法可以有效地做到这一点。 ...
我正在使用 spark 2.3.1 并想在 pyspark 程序中重命名 HDFS 文件。 我正在关注这个答案[ https://stackoverflow.com/a/58172249/12927963] (Pyspark) 对于这条线 fs.rename(路径(hdfs_dir+''+file_ ...
初始数据在 Dataset<Row> 中,我正在尝试写入管道分隔文件,我希望每个非空单元格和非空值都放在引号中。 空值或空值不应包含引号 result.coalesce(1).write() .option("delimiter", "|") ...
我们将数据驻留在 Azure blob 存储中的表中,该表充当数据湖。 数据每 30 分钟摄取一次,从而在 UTC 中形成如下时间分区 用于捕获数据的文件格式是 orc,并且时间分区内的数据分区大小相同。 我们的用例是使用 Spark (V 2.3) 在 IST 中捕获日级别的数据进行处理。 ...
初始数据在 Dataset<Row> 中,我正在尝试将每个单元格值写入 csv 文件,以放在引号中。 预期输出: 电流输出: Spark 版本是 2.3 ...
我正在运行具有以下集群和应用程序配置的 Spark 作业: 总节点:3 个Master Node Memory 7.5GB, 2 Cores Worker Node1, Memory 15GB, 4 Cores Worker Node2, Memory 15GB, 4 Cores 应用程序配置: 我 ...
尝试在 kerberos hadoop 集群中使用 janusgraph 连接到 habse 时,出现“无法指定服务器的 Kerberos 主体名称” 首先是一些环境信息 - 操作系统:7.6.1810 Java:1.8.0_191-b12 火花:2.3.2.3.1.0.78-4 纱线:2.5. ...
我正在尝试读取一个文件夹中多个.gz文件中存在的具有特定名称的文件。 例如 D:/sample_datasets/gzfiles |-my_file_1.tar.gz |-my_file_1.tar |-file1.csv |-file2.csv |-file3.csv |-my_file ...
当从 spark 2.3 升级到 spark 2.4.3 时,我看到我的一个阶段生成的随机磁盘溢出量增加了 20-30%。 在两种环境中都执行相同的代码。 两个环境之间的所有配置都相同 ...
在执行pyspark数据帧自联接时,出现错误消息: 这是一个简单的数据帧自连接,如下所示,它可以正常工作,但是在对数据帧进行了几次操作(如添加列或与其他数据帧连接)后,就会出现上述错误。 使用像波纹管这样的数据框别名也不起作用,并且会出现相同的错误消息: ...
我有一个使用 Spark 2.3 API df.saveAstable创建的 Hive Parquet 表。 有一个单独的 Hive 进程可以更改同一个 parquet 表以添加列(根据要求)。 但是,下次当我尝试将同一个 parquet 表读入 Spark 数据帧时,使用 Hive Alter T ...
我正在尝试使用bucketing技术为Spark作业进行一些性能优化。 我正在阅读.parquet和.csv文件并进行一些转换。 在我进行分组并加入两个DataFrame之后。 然后我写了加入DF到实木复合地板,但我有一个~500B而不是500Mb的空文件。 Cloudera(c ...
我在具有64GB RAM,32核和500GB磁盘空间的系统上运行Jupyter笔记本。 大约700,000个文档将被建模为600个主题。 词汇量为48000个单词。 使用了100次迭代。 运行10小时后出现磁盘配额超出错误 ...
我正在尝试使用pyspark数据框,我想知道如何使用现有列创建和填充新列。 可以说我有一个像这样的数据框: 我正在寻找创建像这样的数据框的方法: _4只是从_1中删除的“-”,而_5使用了_1和_3中的值 我正在使用spark-2.3.3和python 2.7 ...