標簽[spark3] - 堆棧內存溢出

[英]Why would finding an aggregate of a partition column in Spark 3 take very long time?

我正在嘗試在 Spark2 和 Spark3 中使用以下查詢查詢按dt列分區的表中的MIN(dt) ： SELECT MIN(dt) FROM table_name 該表以 parquet 格式存儲在 S3 中，其中每個dt都是一個單獨的文件夾，因此這似乎是一個非常簡單的操作。大約有 3,200 ...

沒有 TypeTag 可用於案例 class 使用 scala 3 和火花 3

[英]No TypeTag available for a case class using scala 3 with spark 3

我的代碼使用 scala 3 運行火花作業但收到錯誤消息有點困惑為什么編譯器似乎無法加載案例 class，如果有人可以提供幫助 ...

Spark 無法使用內置連接提供程序連接到數據庫

[英]Spark can't connect to DB with built-in connection providers

我正在嘗試連接到 Postgres 遵循此文檔並且文件說內置連接提供程序。誰能幫我解決這個問題，好嗎？ ` 有以下數據庫的內置連接提供程序： DB2 瑪麗亞數據庫微軟 SQL 甲骨文 PostgreSQL ` val spark = SparkSession.buil ...

在 pyspark 中創建查找列

[英]Create a lookup column in pyspark

我正在嘗試在 pyspark dataframe 中創建一個新列，該列“查找”同一 dataframe 中的下一個值，並將其復制到下一個事件發生之前。我使用了如下使用的窗口函數，但在列上獲得下一個值仍然沒有運氣：顯然它不會正確查找“下一個”事件。關於可能的方法的任何想法？示例 datafra ...

Scala：使用 spark 3.1.2 解析時間戳

[英]Scala: Parse timestamp using spark 3.1.2

我有一個 Excel 閱讀器，我將結果放入 sparks 數據框中。我在解析時間戳時遇到問題。我將時間戳作為字符串，例如Wed Dec 08 10:49:59 CET 2021 。我使用的是 spark-sql 版本2.4.5並且一切正常，直到我最近更新到版本3.1.2 。請在下面找到一些最 ...

在 Spark 中將日期轉換為 ISO 周日期

[英]Convert date to ISO week date in Spark

在一列中有日期，如何創建包含ISO 周日期的列？ ISO week date 由年份、周數和工作日組成。年份與使用year function 獲得的年份不同。周數是比較簡單的部分 - 它可以使用weekofyear獲得。 weekday應該為星期一返回 1，為星期日返回 7，而 Spark ...

如何使用 java 在 spark3 中讀取 map

[英]How to read map in spark3 with java

數據集 person = spark.read.textfile(path).map(Person::new,Encoders.bean(Person.class)) 當我在上面嘗試時，它將在 spark2.4 中工作，但在 spark3 中，它對於 DataSet 類型顯示為模棱兩可。 ...

SPARK 3 - 用前幾行的值填充值（查找）

[英]SPARK 3 - Populate value with value from previous rows (lookup)

Spark 每周一開始

[英]Start of the week on Monday in Spark

這是我的數據集：from pyspark.sql import SparkSession, functions as F spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame([('2021-02-07',),( ...

如何在 Spark3 中獲取 **add_months** Spark2 行為

[英]How to get **add_months** Spark2 behaviour in Spark3

我們正在將龐大的代碼庫從 Spark2 遷移到 Spark 3.x。為了逐步進行遷移，一些配置被設置為 legacy 以具有與 Spark 2.x 中相同的行為。功能add_months ，但是，AFAIK 沒有“傳統”模式。根據遷移文檔在 Spark3 中在 Spark 3.0 中，如 ...

Spark AQE Post-Shuffle partitions coalesce 沒有按預期工作，甚至導致某些分區的數據傾斜。為什么？

[英]Spark AQE Post-Shuffle partitions coalesce don't work as expected, and even make data skew in some partitions. Why?

我在我的 spark DF 上使用全局排序，當我啟用 AQE 和 post-shuffle 合並時，排序操作后我的分區變得比以前更差。我的查詢在高層次上看起來是：可能導致偏斜的列 -> 是的，我的數據分布不均，這就是我使用鹽的原因。我從 Kafka 讀取數據，所以我使用 Kafka 分 ...

Apache Livy 0.7.0 無法創建交互式會話

[英]Apache Livy 0.7.0 Failed to create Interactive session

使用 apache Livy 0.7.0 創建新會話時，出現以下錯誤。我還使用 zeppelin notebook（livy interpreter）來創建會話。使用 Scala 版本 2.12.10，Java HotSpot(TM) 64 位服務器 VM，11.0.11 火花 3.0.2 齊 ...

spark3 因 py4j.protocol.Py4JJavaError 而崩潰

[英]spark3 crashes with py4j.protocol.Py4JJavaError

我正在嘗試從 emr-5.28.0(spark 2.4.4) 遷移到 emr-6.2.0(spark 3.0.1)，無論我做什么，spark 的最基本用法都會崩潰。這是我的 test_pyspark.py 文件：我將它上傳到 S3 並使用它崩潰了。這是容器日志：找不到任何關於因此，任何幫 ...

如何使用 Spark/Scala 將這樣的嵌套多行 json 文件讀入數據幀

[英]How to read such a nested multiline json file into a data frame with Spark/Scala

我有以下 json：我正在嘗試這樣閱讀：但它無法在數據框中正確顯示我的記錄，我如何在 go 周圍嵌套該“值”以正確地將我的行放在 dataframe 中？當前結果：我試圖得到的結果是： ...

如何從 ML 庫（例如 PyTorch 或 ZCB20B802A3F0255E0Z251C4E）訪問 GPU 中的 Spark DataFrame 數據

[英]How to access Spark DataFrame data in GPU from ML Libraries such as PyTorch or Tensorflow

目前我正在研究 Apache Spark 3.0 與 Rapids GPU 加速的使用。在官方spark-rapids文檔中，我遇到了這個頁面，其中指出：在某些情況下，您可能希望訪問 GPU 上的原始數據，最好不要復制它。一個用例是在進行特征提取后將數據導出到 ML 框架。對我來說，這聽起 ...

Spark 3.0.1 是否支持 window 函數上的自定義聚合器？

[英]Does Spark 3.0.1 support custom Aggregators on window functions?

我編寫了一個自定義Aggregator （ org.apache.spark.sql.expressions.Aggregator的擴展），Spark 正確調用它作為group by語句下的聚合 function：不過，我想在 window function 內使用它，因為訂購對我來說很重要。 ...

使用 zstd 壓縮編解碼器時 Spark 3.0.1 任務失敗

[英]Spark 3.0.1 tasks are failing when using zstd compression codec

我將Spark 3.0.1與用戶提供的Hadoop 3.2.0和Scala 2.12.10在Kubernetes 上運行一起使用。讀取壓縮為活潑的拼花文件時，但是當我嘗試閱讀下面的錯誤下壓縮為zstd幾個任務拼花文件失敗，一切工作正常：我不明白的是，這些任務在重試后會成功，但並非總是如此， ...

使用 Spark 3 加載 PipelineModel 時出現 AnalysisException

[英]AnalysisException when loading a PipelineModel with Spark 3

我正在將 Spark 版本從 2.4.5 升級到 3.0.1，但我無法再加載使用“DecisionTreeClassifier”階段的 PipelineModel 對象。在我的代碼中，我加載了幾個 PipelineModel，所有帶有階段 ["CountVectorizer_[uid]", "L ...

Prometheus 中的 Spark 3.0 流指標

[英]Spark 3.0 streaming metrics in Prometheus

我正在 Kubernetes 上運行 Spark 3.0 應用程序（Spark Structured Streaming），我正在嘗試使用新的原生 Prometheus 指標接收器。我能夠使它工作並獲得此處描述的所有指標。但是，我真正需要的指標是在啟用以下配置時提供的指標：spark.sql. ...

Spark 3.0 和 Cassandra Spark / Python Conenctors：在寫入之前未創建表

[英]Spark 3.0 and Cassandra Spark / Python Conenctors: Table is not being created prior to write

我目前正在嘗試將我的應用程序升級到 Spark 3.0.1。對於表創建，我使用 cassandra-driver（Python-Cassandra 連接器）刪除並創建了一個表。然后我使用 spark-cassandra 連接器將數據幀寫入表中。僅使用 spark-cassandra 連接器來創 ...