cost 112 ms
為什么在 Spark 3 中查找分區列的聚合需要很長時間?

[英]Why would finding an aggregate of a partition column in Spark 3 take very long time?

我正在嘗試在 Spark2 和 Spark3 中使用以下查詢查詢按dt列分區的表中的MIN(dt) : SELECT MIN(dt) FROM table_name 該表以 parquet 格式存儲在 S3 中,其中每個dt都是一個單獨的文件夾,因此這似乎是一個非常簡單的操作。 大約有 3,200 ...

Spark 無法使用內置連接提供程序連接到數據庫

[英]Spark can't connect to DB with built-in connection providers

我正在嘗試連接到 Postgres 遵循此文檔 並且文件說內置連接提供程序。 誰能幫我解決這個問題,好嗎? ` 有以下數據庫的內置連接提供程序: DB2 瑪麗亞數據庫 微軟 SQL 甲骨文 PostgreSQL ` val spark = SparkSession.buil ...

在 pyspark 中創建查找列

[英]Create a lookup column in pyspark

我正在嘗試在 pyspark dataframe 中創建一個新列,該列“查找”同一 dataframe 中的下一個值,並將其復制到下一個事件發生之前。 我使用了如下使用的窗口函數,但在列上獲得下一個值仍然沒有運氣: 顯然它不會正確查找“下一個”事件。 關於可能的方法的任何想法? 示例 datafra ...

Scala:使用 spark 3.1.2 解析時間戳

[英]Scala: Parse timestamp using spark 3.1.2

我有一個 Excel 閱讀器,我將結果放入 sparks 數據框中。 我在解析時間戳時遇到問題。 我將時間戳作為字符串,例如Wed Dec 08 10:49:59 CET 2021 。 我使用的是 spark-sql 版本2.4.5並且一切正常,直到我最近更新到版本3.1.2 。 請在下面找到一些最 ...

在 Spark 中將日期轉換為 ISO 周日期

[英]Convert date to ISO week date in Spark

在一列中有日期,如何創建包含ISO 周日期的列? ISO week date 由年份、周數和工作日組成。 年份與使用year function 獲得的年份不同。 周數是比較簡單的部分 - 它可以使用weekofyear獲得。 weekday應該為星期一返回 1,為星期日返回 7,而 Spark ...

如何使用 java 在 spark3 中讀取 map

[英]How to read map in spark3 with java

數據集 person = spark.read.textfile(path).map(Person::new,Encoders.bean(Person.class)) 當我在上面嘗試時,它將在 spark2.4 中工作,但在 spark3 中,它對於 DataSet 類型顯示為模棱兩可。 ...

2021-12-13 10:28:54   1   12    spark3  
如何在 Spark3 中獲取 **add_months** Spark2 行為

[英]How to get **add_months** Spark2 behaviour in Spark3

我們正在將龐大的代碼庫從 Spark2 遷移到 Spark 3.x。 為了逐步進行遷移,一些配置被設置為 legacy 以具有與 Spark 2.x 中相同的行為。 功能add_months ,但是,AFAIK 沒有“傳統”模式。 根據遷移文檔在 Spark3 中 在 Spark 3.0 中,如 ...

Spark AQE Post-Shuffle partitions coalesce 沒有按預期工作,甚至導致某些分區的數據傾斜。 為什么?

[英]Spark AQE Post-Shuffle partitions coalesce don't work as expected, and even make data skew in some partitions. Why?

我在我的 spark DF 上使用全局排序,當我啟用 AQE 和 post-shuffle 合並時,排序操作后我的分區變得比以前更差。 我的查詢在高層次上看起來是: 可能導致偏斜的列 -> 是的,我的數據分布不均,這就是我使用鹽的原因。 我從 Kafka 讀取數據,所以我使用 Kafka 分 ...

Apache Livy 0.7.0 無法創建交互式會話

[英]Apache Livy 0.7.0 Failed to create Interactive session

使用 apache Livy 0.7.0 創建新會話時,出現以下錯誤。 我還使用 zeppelin notebook(livy interpreter)來創建會話。 使用 Scala 版本 2.12.10,Java HotSpot(TM) 64 位服務器 VM,11.0.11 火花 3.0.2 齊 ...

spark3 因 py4j.protocol.Py4JJavaError 而崩潰

[英]spark3 crashes with py4j.protocol.Py4JJavaError

我正在嘗試從 emr-5.28.0(spark 2.4.4) 遷移到 emr-6.2.0(spark 3.0.1),無論我做什么,spark 的最基本用法都會崩潰。 這是我的 test_pyspark.py 文件: 我將它上傳到 S3 並使用 它崩潰了。 這是容器日志: 找不到任何關於 因此,任何幫 ...

如何從 ML 庫(例如 PyTorch 或 ZCB20B802A3F0255E0Z251C4E)訪問 GPU 中的 Spark DataFrame 數據

[英]How to access Spark DataFrame data in GPU from ML Libraries such as PyTorch or Tensorflow

目前我正在研究 Apache Spark 3.0 與 Rapids GPU 加速的使用。 在官方spark-rapids文檔中,我遇到了 這個頁面,其中指出: 在某些情況下,您可能希望訪問 GPU 上的原始數據,最好不要復制它。 一個用例是在進行特征提取后將數據導出到 ML 框架。 對我來說,這聽起 ...

Spark 3.0.1 是否支持 window 函數上的自定義聚合器?

[英]Does Spark 3.0.1 support custom Aggregators on window functions?

我編寫了一個自定義Aggregator ( org.apache.spark.sql.expressions.Aggregator的擴展),Spark 正確調用它作為group by語句下的聚合 function: 不過,我想在 window function 內使用它,因為訂購對我來說很重要。 ...

使用 zstd 壓縮編解碼器時 Spark 3.0.1 任務失敗

[英]Spark 3.0.1 tasks are failing when using zstd compression codec

我將Spark 3.0.1與用戶提供的Hadoop 3.2.0和Scala 2.12.10在Kubernetes 上運行一起使用。 讀取壓縮為活潑的拼花文件時,但是當我嘗試閱讀下面的錯誤下壓縮為zstd幾個任務拼花文件失敗,一切工作正常: 我不明白的是,這些任務在重試后會成功,但並非總是如此, ...

Prometheus 中的 Spark 3.0 流指標

[英]Spark 3.0 streaming metrics in Prometheus

我正在 Kubernetes 上運行 Spark 3.0 應用程序(Spark Structured Streaming),我正在嘗試使用新的原生 Prometheus 指標接收器。 我能夠使它工作並獲得此處描述的所有指標。 但是,我真正需要的指標是在啟用以下配置時提供的指標:spark.sql. ...

Spark 3.0 和 Cassandra Spark / Python Conenctors:在寫入之前未創建表

[英]Spark 3.0 and Cassandra Spark / Python Conenctors: Table is not being created prior to write

我目前正在嘗試將我的應用程序升級到 Spark 3.0.1。 對於表創建,我使用 cassandra-driver(Python-Cassandra 連接器)刪除並創建了一個表。 然后我使用 spark-cassandra 連接器將數據幀寫入表中。 僅使用 spark-cassandra 連接器來創 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM