標簽[apache-spark-2.3] - 堆棧內存溢出

[英]Spark 2.3 Stream-Stream Join lost left table key

我正在嘗試使用 Spark 2.3.0 實現流連接玩具當條件匹配時，stream 連接工作正常，但即使使用 leftOuterJoin，條件不匹配時也會丟失左 stream 值。提前致謝這是我的源代碼和數據，基本上，我正在創建兩個 sockets，一個是 9999 作為右側 stream 源，99 ...

將 pyspark dataframe 寫入 csv 不帶外引號

[英]write pyspark dataframe to csv with out outer quotes

我有一個 dataframe 單列如下。我正在使用 pyspark 版本 2.3 寫入 csv。默認情況下，代碼的 output 是如何刪除外部引號？我嘗試過 option('quoteAll','false') 和 option('quote',None) 都不起作用。 ...

在 Spark 中找到最長的連續條紋

[英]Find Longest Continuous Streak In Spark

我有一個像這樣的單列 dataframe 我必須得到最長的連續時間段的開始日期和結束日期。所以在上面的例子中，我有一個像這樣的 output 我的方法：對數據進行排序並找到前一行的滯后，每當滯后 > 1 時，重置周期長度但我無法找到在特定條件下重置周期的方法。我正在使用火花 2.3 ...

SparkSession.catalog.clearCache() 可以從 hdfs 中刪除數據嗎？

[英]Can SparkSession.catalog.clearCache() delete data from hdfs?

自從我們從 CDH 遷移到 HDP（spark 2.2 到 2.3）后，我遇到了一些數據刪除問題。這些表是從 hdfs 位置讀取的，在運行讀取和處理這些表的 spark 作業一段時間后，它會拋出table not found 異常，當我們檢查該位置時，所有記錄都消失了。在讀取該表之前我看到的 ...

Airflow：使用 LivyBatchOperator 在紗線中提交 pyspark 應用程序

[英]Airflow: Use LivyBatchOperator for submitting pyspark applications in yarn

我遇到了一個叫做LivyBatchOperator的東西，但找不到一個很好的例子來提交 airflow 中的 pyspark 應用程序。任何有關此的信息將不勝感激。提前致謝。 ...

SparkSubmitOperator vs SSHOperator 用於在 airflow 中提交 pyspark 應用程序

[英]SparkSubmitOperator vs SSHOperator for submitting pyspark applications in airflow

我有不同的 spark 和 airflow 服務器。而且我在 airflow 服務器中沒有 spark 二進制文件。我能夠很好地使用 SSHOperator 並在集群模式下運行 spark 作業。我想知道從長遠來看，使用 SSHOperator 或 SparkSubmitOperator 提交 ...

如何將每列的兩個 arrays 轉換為 Spark DataFrame 的對？

[英]How to transform two arrays of each column into a pair for a Spark DataFrame?

我有一個 DataFrame 有兩列數組值，如下所示我想將其轉換為如下所示的對數組我想我可以使用 struct 然后使用一些 udf。但我想知道是否有任何內置的高階方法可以有效地做到這一點。 ...

HDFS 中的 Pyspark 重命名文件

[英]Pyspark renaming file in HDFS

我正在使用 spark 2.3.1 並想在 pyspark 程序中重命名 HDFS 文件。我正在關注這個答案[ https://stackoverflow.com/a/58172249/12927963] （Pyspark）對於這條線 fs.rename（路徑（hdfs_dir+''+file_ ...

使用 Spark 和 java 編寫 CSV 文件 - 處理空值和引號

[英]Writing CSV file using Spark and java - handling empty values and quotes

初始數據在 Dataset<Row> 中，我正在嘗試寫入管道分隔文件，我希望每個非空單元格和非空值都放在引號中。空值或空值不應包含引號 result.coalesce(1).write() .option("delimiter", "|") ...

優化讀取數據以激發 Azure blob

[英]Optimizing reading data to spark from Azure blob

我們將數據駐留在 Azure blob 存儲中的表中，該表充當數據湖。數據每 30 分鍾攝取一次，從而在 UTC 中形成如下時間分區用於捕獲數據的文件格式是 orc，並且時間分區內的數據分區大小相同。我們的用例是使用 Spark (V 2.3) 在 IST 中捕獲日級別的數據進行處理。 ...

CSV 輸出文件中未顯示報價

[英]Quotes not displayed in CSV output file

初始數據在 Dataset<Row> 中，我正在嘗試將每個單元格值寫入 csv 文件，以放在引號中。預期輸出：電流輸出： Spark 版本是 2.3 ...

執行多個 Spark 作業

[英]Execute multiple Spark jobs

我正在運行具有以下集群和應用程序配置的 Spark 作業：總節點：3 個Master Node Memory 7.5GB, 2 Cores Worker Node1, Memory 15GB, 4 Cores Worker Node2, Memory 15GB, 4 Cores 應用程序配置：我 ...

Janusgraph 庫無法在 kerberos 環境中與 hbase 通信（無法指定服務器的 Kerberos 主體名稱）

[英]Janusgraph libs cant communicate with hbase in kerberos environment(Failed to specify server's Kerberos principal name)

嘗試在 kerberos hadoop 集群中使用 janusgraph 連接到 habse 時，出現“無法指定服務器的 Kerberos 主體名稱” 首先是一些環境信息 - 操作系統：7.6.1810 Java：1.8.0_191-b12 火花：2.3.2.3.1.0.78-4 紗線：2.5. ...

從Spark中的多個.gz文件讀取特定文件

[英]Read specific file from multiple .gz file in Spark

升級版本時 Spark shuffle 磁盤溢出增加

[英]Spark shuffle disk spill increase when upgrading versions

當從 spark 2.3 升級到 spark 2.4.3 時，我看到我的一個階段生成的隨機磁盤溢出量增加了 20-30%。在兩種環境中都執行相同的代碼。兩個環境之間的所有配置都相同 ...

Pyspark自聯接，錯誤為“缺少已解決的屬性”

[英]Pyspark self-join with error “Resolved attribute(s) missing”

在執行pyspark數據幀自聯接時，出現錯誤消息：這是一個簡單的數據幀自連接，如下所示，它可以正常工作，但是在對數據幀進行了幾次操作（如添加列或與其他數據幀連接）后，就會出現上述錯誤。使用像波紋管這樣的數據框別名也不起作用，並且會出現相同的錯誤消息： ...

Spark（2.3）無法識別通過 Hive Alter Table 命令添加的 Parquet 表中的新列

[英]Spark(2.3) not able to identify new columns in Parquet table added via Hive Alter Table command

我有一個使用 Spark 2.3 API df.saveAstable創建的 Hive Parquet 表。有一個單獨的 Hive 進程可以更改同一個 parquet 表以添加列（根據要求）。但是，下次當我嘗試將同一個 parquet 表讀入 Spark 數據幀時，使用 Hive Alter T ...

將DataFrame寫為鑲木地板會創建空文件

[英]Writing DataFrame as parquet creates empty files

我正在嘗試使用bucketing技術為Spark作業進行一些性能優化。我正在閱讀.parquet和.csv文件並進行一些轉換。在我進行分組並加入兩個DataFrame之后。然后我寫了加入DF到實木復合地板，但我有一個~500B而不是500Mb的空文件。 Cloudera（c ...

Spark-主題建模上沒有剩余磁盤空間

[英]Spark - No disk space left on Topic modelling

我在具有64GB RAM，32核和500GB磁盤空間的系統上運行Jupyter筆記本。大約700,000個文檔將被建模為600個主題。詞匯量為48000個單詞。使用了100次迭代。運行10小時后出現磁盤配額超出錯誤 ...

使用現有列在pyspark數據框中創建新列

[英]create new column in pyspark dataframe using existing columns

我正在嘗試使用pyspark數據框，我想知道如何使用現有列創建和填充新列。可以說我有一個像這樣的數據框：我正在尋找創建像這樣的數據框的方法： _4只是從_1中刪除的“-”，而_5使用了_1和_3中的值我正在使用spark-2.3.3和python 2.7 ...