标签[apache-spark-2.3] - 堆栈内存溢出

Spark 2.3 Stream-Stream Join 丢失左表键 - Spark 2.3 Stream-Stream Join lost left table key

我正在尝试使用 Spark 2.3.0 实现流连接玩具当条件匹配时，stream 连接工作正常，但即使使用 leftOuterJoin，条件不匹配时也会丢失左 stream 值。提前致谢这是我的源代码和数据，基本上，我正在创建两个 sockets，一个是 9999 作为右侧 stream 源，99 ...

将 pyspark dataframe 写入 csv 不带外引号 - write pyspark dataframe to csv with out outer quotes

我有一个 dataframe 单列如下。我正在使用 pyspark 版本 2.3 写入 csv。默认情况下，代码的 output 是如何删除外部引号？我尝试过 option('quoteAll','false') 和 option('quote',None) 都不起作用。 ...

在 Spark 中找到最长的连续条纹 - Find Longest Continuous Streak In Spark

我有一个像这样的单列 dataframe 我必须得到最长的连续时间段的开始日期和结束日期。所以在上面的例子中，我有一个像这样的 output 我的方法：对数据进行排序并找到前一行的滞后，每当滞后 > 1 时，重置周期长度但我无法找到在特定条件下重置周期的方法。我正在使用火花 2.3 ...

SparkSession.catalog.clearCache() 可以从 hdfs 中删除数据吗？ - Can SparkSession.catalog.clearCache() delete data from hdfs?

自从我们从 CDH 迁移到 HDP（spark 2.2 到 2.3）后，我遇到了一些数据删除问题。这些表是从 hdfs 位置读取的，在运行读取和处理这些表的 spark 作业一段时间后，它会抛出table not found 异常，当我们检查该位置时，所有记录都消失了。在读取该表之前我看到的 ...

Airflow：使用 LivyBatchOperator 在纱线中提交 pyspark 应用程序 - Airflow: Use LivyBatchOperator for submitting pyspark applications in yarn

我遇到了一个叫做LivyBatchOperator的东西，但找不到一个很好的例子来提交 airflow 中的 pyspark 应用程序。任何有关此的信息将不胜感激。提前致谢。 ...

SparkSubmitOperator vs SSHOperator 用于在 airflow 中提交 pyspark 应用程序 - SparkSubmitOperator vs SSHOperator for submitting pyspark applications in airflow

我有不同的 spark 和 airflow 服务器。而且我在 airflow 服务器中没有 spark 二进制文件。我能够很好地使用 SSHOperator 并在集群模式下运行 spark 作业。我想知道从长远来看，使用 SSHOperator 或 SparkSubmitOperator 提交 ...

如何将每列的两个 arrays 转换为 Spark DataFrame 的对？ - How to transform two arrays of each column into a pair for a Spark DataFrame?

我有一个 DataFrame 有两列数组值，如下所示我想将其转换为如下所示的对数组我想我可以使用 struct 然后使用一些 udf。但我想知道是否有任何内置的高阶方法可以有效地做到这一点。 ...

HDFS 中的 Pyspark 重命名文件 - Pyspark renaming file in HDFS

我正在使用 spark 2.3.1 并想在 pyspark 程序中重命名 HDFS 文件。我正在关注这个答案[ https://stackoverflow.com/a/58172249/12927963] （Pyspark）对于这条线 fs.rename（路径（hdfs_dir+''+file_ ...

使用 Spark 和 java 编写 CSV 文件 - 处理空值和引号 - Writing CSV file using Spark and java - handling empty values and quotes

初始数据在 Dataset<Row> 中，我正在尝试写入管道分隔文件，我希望每个非空单元格和非空值都放在引号中。空值或空值不应包含引号 result.coalesce(1).write() .option("delimiter", "|") ...

优化读取数据以激发 Azure blob - Optimizing reading data to spark from Azure blob

我们将数据驻留在 Azure blob 存储中的表中，该表充当数据湖。数据每 30 分钟摄取一次，从而在 UTC 中形成如下时间分区用于捕获数据的文件格式是 orc，并且时间分区内的数据分区大小相同。我们的用例是使用 Spark (V 2.3) 在 IST 中捕获日级别的数据进行处理。 ...

CSV 输出文件中未显示报价 - Quotes not displayed in CSV output file

初始数据在 Dataset<Row> 中，我正在尝试将每个单元格值写入 csv 文件，以放在引号中。预期输出：电流输出： Spark 版本是 2.3 ...

执行多个 Spark 作业 - Execute multiple Spark jobs

我正在运行具有以下集群和应用程序配置的 Spark 作业：总节点：3 个Master Node Memory 7.5GB, 2 Cores Worker Node1, Memory 15GB, 4 Cores Worker Node2, Memory 15GB, 4 Cores 应用程序配置：我 ...

Janusgraph 库无法在 kerberos 环境中与 hbase 通信（无法指定服务器的 Kerberos 主体名称） - Janusgraph libs cant communicate with hbase in kerberos environment(Failed to specify server's Kerberos principal name)

尝试在 kerberos hadoop 集群中使用 janusgraph 连接到 habse 时，出现“无法指定服务器的 Kerberos 主体名称” 首先是一些环境信息 - 操作系统：7.6.1810 Java：1.8.0_191-b12 火花：2.3.2.3.1.0.78-4 纱线：2.5. ...

从Spark中的多个.gz文件读取特定文件 - Read specific file from multiple .gz file in Spark

升级版本时 Spark shuffle 磁盘溢出增加 - Spark shuffle disk spill increase when upgrading versions

当从 spark 2.3 升级到 spark 2.4.3 时，我看到我的一个阶段生成的随机磁盘溢出量增加了 20-30%。在两种环境中都执行相同的代码。两个环境之间的所有配置都相同 ...

Pyspark自联接，错误为“缺少已解决的属性” - Pyspark self-join with error “Resolved attribute(s) missing”

在执行pyspark数据帧自联接时，出现错误消息：这是一个简单的数据帧自连接，如下所示，它可以正常工作，但是在对数据帧进行了几次操作（如添加列或与其他数据帧连接）后，就会出现上述错误。使用像波纹管这样的数据框别名也不起作用，并且会出现相同的错误消息： ...

Spark（2.3）无法识别通过 Hive Alter Table 命令添加的 Parquet 表中的新列 - Spark(2.3) not able to identify new columns in Parquet table added via Hive Alter Table command

我有一个使用 Spark 2.3 API df.saveAstable创建的 Hive Parquet 表。有一个单独的 Hive 进程可以更改同一个 parquet 表以添加列（根据要求）。但是，下次当我尝试将同一个 parquet 表读入 Spark 数据帧时，使用 Hive Alter T ...

将DataFrame写为镶木地板会创建空文件 - Writing DataFrame as parquet creates empty files

我正在尝试使用bucketing技术为Spark作业进行一些性能优化。我正在阅读.parquet和.csv文件并进行一些转换。在我进行分组并加入两个DataFrame之后。然后我写了加入DF到实木复合地板，但我有一个~500B而不是500Mb的空文件。 Cloudera（c ...

Spark-主题建模上没有剩余磁盘空间 - Spark - No disk space left on Topic modelling

我在具有64GB RAM，32核和500GB磁盘空间的系统上运行Jupyter笔记本。大约700,000个文档将被建模为600个主题。词汇量为48000个单词。使用了100次迭代。运行10小时后出现磁盘配额超出错误 ...

使用现有列在pyspark数据框中创建新列 - create new column in pyspark dataframe using existing columns

我正在尝试使用pyspark数据框，我想知道如何使用现有列创建和填充新列。可以说我有一个像这样的数据框：我正在寻找创建像这样的数据框的方法： _4只是从_1中删除的“-”，而_5使用了_1和_3中的值我正在使用spark-2.3.3和python 2.7 ...