cost 79 ms
org.apache.spark.SparkException:UDF 中的任務不可序列化錯誤

[英]org.apache.spark.SparkException: Task not serializable error in UDF

我們正在嘗試從 kafaka 獲取數據並對 avro 數據格式進行反序列化。 代碼在 kafkaDataframe 之前工作正常,其中數據是從 kafka 主題中獲取的,但是當嘗試使用 deserialize() UDF 方法從 kafkaDataframe 中提取值時。 它拋出異常作為任務不可序列 ...

我可以在 Spark 中並行編寫多個 DataFrame 嗎?

[英]Can I write multiple DataFrames in parallel in Spark?

我有一個問題,我想以 avro 格式順序編寫許多 dataframe,我在 for 循環中使用下面的代碼。 問題是當我運行我的 spark 作業時,我一次看到只有一個任務正在執行(因此,只有 1 個數據幀被寫入)。 此外,當我檢查 spark-ui 中活動執行器的數量時,我看到只使用了 1 個執行 ...

來自事件中心的 Avro 字節無法使用 pyspark 反序列化

[英]Avro bytes from Event hub cannot be deserialized with pyspark

我們使用獨立的 python 作業將使用 ( azure.schemaregistry.encoder.avroencoder )編碼的 Avro 數據發送到 Event-Hub,我們可以使用另一個獨立的 python 消費者使用相同的解碼器進行反序列化。 在這種情況下,模式注冊表也提供給 Avro ...

安裝 Apache Spark 包以在本地運行

[英]Installing Apache Spark Packages to run Locally

我正在尋找安裝 Spark 包(特別是 spark-avro)以在本地運行並通過 spark-submit 命令正確使用它們的清晰指南或步驟。 我花了很多時間閱讀許多帖子和指南,但仍然無法讓 spark-submit 使用本地部署的 spark-avro 包。 因此,如果有人已經使用 spark- ...

如何反序列化從 Datastream Scala + apache Flink 獲取的 Avro 響應

[英]How to Deseralize Avro response getting from Datastream Scala + apache Flink

我正在從 Confluent 的 Kafka 主題中獲取 Avro 響應,當我想反序列化響應時,我遇到了問題。 不理解語法我應該如何定義 Avro 反序列化器並在閱讀時在我的 Kafka 源代碼中使用。 分享我目前正在做的方法。 我在 Confluent 中有一個名為 employee 的主題,它每 ...

為什么在我使用 com.databricks.spark.avro 時,必須添加 org.apache.spark.avro 依賴項才能在 Spark2.4 中讀/寫 avro 文件?

[英]Why is adding org.apache.spark.avro dependency is mandatory to read/write avro files in Spark2.4 while I'm using com.databricks.spark.avro?

我嘗試在安裝了 Spark 2.4.8 的 Cloud Dataproc 集群 1.4 上運行我的 Spark/Scala 代碼 2.3.0。 我遇到了關於讀取 avro 文件的錯誤。 這是我的代碼: 此代碼按預期失敗。 然后我將此依賴項添加到我的pom.xml文件中:<dependency ...

Spark未完全讀取AVRO文件

[英]AVRO file not read fully by Spark

我正在使用 Spark 讀取存儲在 ADLS gen2 上的 AVRO 文件,如下所示: 我提交這個readEventsFromADLS2.py文件如下: 但是,結果我只得到縮短的輸出。 問題: 如何在上述輸出中打印完全展開的列? 我怎么看Body文本格式(在上面的輸出最后一列 ...

Avro 向后兼容性無法按預期工作

[英]Avro backward compatibility doesn't work as expected

我有兩個 Avro 模式 V1 和 V2,它們在 spark 中讀取,如下所示: V1 有兩個字段“一”和“二” { "name": "test", "namespace": "foo.bar", "type": "record", "fields": [ { ...

如何使用 sparklyr R 包中的 spark_read_avro?

[英]How to use spark_read_avro from sparklyr R package?

我正在使用:R 版本 4.1.1 sparklyr 版本“1.7.2” 我使用 databricks-connect 連接到我的 databricks 集群,並嘗試使用以下代碼讀取 avro 文件: 我還嘗試顯式添加包: spark連接正常,我可以正常讀取parquet文件,但是在讀取a ...

將 Spark avro 包導入到 dockerized python 項目中以在 S3 中導入 avro 文件

[英]Importing Spark avro packages into a dockerized python project to import avro file in S3

我正在嘗試使用以下代碼讀取存儲在 S3 存儲桶中的一些 avro 文件。 火花版本是 2.4.7 有了這個我得到以下錯誤 我知道這是由於我的項目中沒有 spark avro 包。 但我不確定如何將這些導入到我的項目中。 請注意,所有 spark、hadoop 和 python 都是使用 do ...

創建 AVRO 文件 AWS Glue 動態幀一對多連接

[英]Create AVRO File AWS Glue Dynamic Frame One to Many Join

AWS Glue 中是否可能出現以下行為? 我正在嘗試通過以一對多的方式加入兩個 DynamicFrames 來創建單個 AVRO 文件。 例如,我有一個具有多種教師類型的 DyF:teacher_id teacher_name 和具有許多學生類型的 Dyf:student_id teacher_ ...

Avro Schema 的序列化器

[英]Serializer for Avro Schema

我是 Avro Schema 的新手。 我根據參考 JSON 創建了以下架構,但我無法為此創建序列化程序。{ "name": "Name", "type": "record", "namespace": "NameSpace", "fields": [ { "na ...

從 avro 文件將數據集轉換為 dataframe

[英]Convert dataset to dataframe from an avro file

我編寫了一個 scala 腳本來加載 avro 文件,並使用生成的數據(以檢索主要貢獻者)。 問題是,在加載文件時,它提供了一個我無法轉換為 dataframe 因為它包含一些復雜類型的數據集: 我使用下面的案例類嘗試使用編碼器和編碼器,但沒有用 我可以從我的 revisions_dataset ...

在 Spark 中編寫 AVRO 文件時應該使用什么 FileOutputCommitter?

[英]What FileOutputCommitter should be used in when writing AVRO files in Spark?

在 AVRO 中將 RDD 保存到 S3 時,我在控制台中收到以下警告: 使用標准 FileOutputCommitter 提交工作。 這很慢並且可能不安全。 我一直無法找到一個簡單的隱式,例如saveAsAvroFile ,因此我四處挖掘並得出了這個結論: 我很困惑,因為我看不出什么是不正確的, ...

AvroDeserialisation 使用 sum 派生 col 時失敗,但使用 count 派生同一列時成功。序列化數據在 kafka 中

[英]AvroDeserialisation Failing when deriving a col using sum but is successful when the same column is derived using count.Serialised data is in kafka

這是我的 SQL 有效的: 這是我的 SQL,它在 avro 中給出 ArrayIndexOutOfBoundsException: 任何人都可以幫助解決這個問題,為什么使用以下用於計數的 avro 模式進行反序列化工作但對 sum 不起作用。這是我的 avro 模式文件 下面是堆棧跟蹤: ...

Pyspark 中的 Avro 模式 (.avsc) 實施

[英]Avro schema ( .avsc ) enforcement in Pyspark

誰能幫助我通過 Pyspark 讀取 avro 架構 (.avsc ) 並在將 dataframe 寫入目標存儲時執行它? 我所有的目標表架構都以 .avsc 文件的形式提供,我需要提供此自定義架構,同時將我的 dataframe 保存在 Pyspark 中。 我知道有來自 databricks 的 ...

無法在 R 中加載 avro package

[英]Failed to load avro package in R

我在本地驅動器中有要讀取的 avro 文件,我希望通過 R 分析這些文件。 但是這個 package 沒有安裝。 它在 cran 中不可用,所以我必須通過 GitHub 下載。 鏈接在這里: https://github.com/RevolutionAnalytics/ravro/ 在 RStu ...

org.apache.avro.UnresolvedUnionException:不在聯合中[{“type”:“bytes”,“logicalType”:“decimal”,“precision”:18,“scale”:4},“null”]:0.0000

[英]org.apache.avro.UnresolvedUnionException: Not in union [{“type”:“bytes”,“logicalType”:“decimal”,“precision”:18,“scale”:4},“null”]: 0.0000

我正在嘗試讀取存儲在 s3 中 hive 表中的數據,將其轉換為 Avro 格式,然后使用 Avro 記錄來構建最終的 object 並將其推送到 kafka 主題。 在我嘗試發布的 object 中,我有一個嵌套的 object,其中包含字符串和十進制類型的字段 (CarCostDetails) ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM