[英]org.apache.spark.SparkException: Task not serializable error in UDF
我們正在嘗試從 kafaka 獲取數據並對 avro 數據格式進行反序列化。 代碼在 kafkaDataframe 之前工作正常,其中數據是從 kafka 主題中獲取的,但是當嘗試使用 deserialize() UDF 方法從 kafkaDataframe 中提取值時。 它拋出異常作為任務不可序列 ...
[英]org.apache.spark.SparkException: Task not serializable error in UDF
我們正在嘗試從 kafaka 獲取數據並對 avro 數據格式進行反序列化。 代碼在 kafkaDataframe 之前工作正常,其中數據是從 kafka 主題中獲取的,但是當嘗試使用 deserialize() UDF 方法從 kafkaDataframe 中提取值時。 它拋出異常作為任務不可序列 ...
[英]Can I write multiple DataFrames in parallel in Spark?
我有一個問題,我想以 avro 格式順序編寫許多 dataframe,我在 for 循環中使用下面的代碼。 問題是當我運行我的 spark 作業時,我一次看到只有一個任務正在執行(因此,只有 1 個數據幀被寫入)。 此外,當我檢查 spark-ui 中活動執行器的數量時,我看到只使用了 1 個執行 ...
[英]Avro bytes from Event hub cannot be deserialized with pyspark
我們使用獨立的 python 作業將使用 ( azure.schemaregistry.encoder.avroencoder )編碼的 Avro 數據發送到 Event-Hub,我們可以使用另一個獨立的 python 消費者使用相同的解碼器進行反序列化。 在這種情況下,模式注冊表也提供給 Avro ...
[英]Installing Apache Spark Packages to run Locally
我正在尋找安裝 Spark 包(特別是 spark-avro)以在本地運行並通過 spark-submit 命令正確使用它們的清晰指南或步驟。 我花了很多時間閱讀許多帖子和指南,但仍然無法讓 spark-submit 使用本地部署的 spark-avro 包。 因此,如果有人已經使用 spark- ...
[英]How to Deseralize Avro response getting from Datastream Scala + apache Flink
我正在從 Confluent 的 Kafka 主題中獲取 Avro 響應,當我想反序列化響應時,我遇到了問題。 不理解語法我應該如何定義 Avro 反序列化器並在閱讀時在我的 Kafka 源代碼中使用。 分享我目前正在做的方法。 我在 Confluent 中有一個名為 employee 的主題,它每 ...
[英]Why is adding org.apache.spark.avro dependency is mandatory to read/write avro files in Spark2.4 while I'm using com.databricks.spark.avro?
我嘗試在安裝了 Spark 2.4.8 的 Cloud Dataproc 集群 1.4 上運行我的 Spark/Scala 代碼 2.3.0。 我遇到了關於讀取 avro 文件的錯誤。 這是我的代碼: 此代碼按預期失敗。 然后我將此依賴項添加到我的pom.xml文件中:<dependency ...
[英]AVRO file not read fully by Spark
我正在使用 Spark 讀取存儲在 ADLS gen2 上的 AVRO 文件,如下所示: 我提交這個readEventsFromADLS2.py文件如下: 但是,結果我只得到縮短的輸出。 問題: 如何在上述輸出中打印完全展開的列? 我怎么看Body文本格式(在上面的輸出最后一列 ...
[英]Avro backward compatibility doesn't work as expected
我有兩個 Avro 模式 V1 和 V2,它們在 spark 中讀取,如下所示: V1 有兩個字段“一”和“二” { "name": "test", "namespace": "foo.bar", "type": "record", "fields": [ { ...
[英]How to use spark_read_avro from sparklyr R package?
我正在使用:R 版本 4.1.1 sparklyr 版本“1.7.2” 我使用 databricks-connect 連接到我的 databricks 集群,並嘗試使用以下代碼讀取 avro 文件: 我還嘗試顯式添加包: spark連接正常,我可以正常讀取parquet文件,但是在讀取a ...
[英]Importing Spark avro packages into a dockerized python project to import avro file in S3
我正在嘗試使用以下代碼讀取存儲在 S3 存儲桶中的一些 avro 文件。 火花版本是 2.4.7 有了這個我得到以下錯誤 我知道這是由於我的項目中沒有 spark avro 包。 但我不確定如何將這些導入到我的項目中。 請注意,所有 spark、hadoop 和 python 都是使用 do ...
[英]PySpark works in terminal but not when executed in Python code
我正在嘗試讀取 avro 文件類型。 以下是我在網上找到的用於測試我的代碼的示例數據源: https://github.com/Teradata/kylo/blob/master/samples/sample-data/avro/userdata1.avro 以下是我的代碼(請假設source_p ...
[英]Create AVRO File AWS Glue Dynamic Frame One to Many Join
AWS Glue 中是否可能出現以下行為? 我正在嘗試通過以一對多的方式加入兩個 DynamicFrames 來創建單個 AVRO 文件。 例如,我有一個具有多種教師類型的 DyF:teacher_id teacher_name 和具有許多學生類型的 Dyf:student_id teacher_ ...
[英]Serializer for Avro Schema
我是 Avro Schema 的新手。 我根據參考 JSON 創建了以下架構,但我無法為此創建序列化程序。{ "name": "Name", "type": "record", "namespace": "NameSpace", "fields": [ { "na ...
[英]Convert dataset to dataframe from an avro file
我編寫了一個 scala 腳本來加載 avro 文件,並使用生成的數據(以檢索主要貢獻者)。 問題是,在加載文件時,它提供了一個我無法轉換為 dataframe 因為它包含一些復雜類型的數據集: 我使用下面的案例類嘗試使用編碼器和編碼器,但沒有用 我可以從我的 revisions_dataset ...
[英]What FileOutputCommitter should be used in when writing AVRO files in Spark?
在 AVRO 中將 RDD 保存到 S3 時,我在控制台中收到以下警告: 使用標准 FileOutputCommitter 提交工作。 這很慢並且可能不安全。 我一直無法找到一個簡單的隱式,例如saveAsAvroFile ,因此我四處挖掘並得出了這個結論: 我很困惑,因為我看不出什么是不正確的, ...
[英]AvroDeserialisation Failing when deriving a col using sum but is successful when the same column is derived using count.Serialised data is in kafka
這是我的 SQL 有效的: 這是我的 SQL,它在 avro 中給出 ArrayIndexOutOfBoundsException: 任何人都可以幫助解決這個問題,為什么使用以下用於計數的 avro 模式進行反序列化工作但對 sum 不起作用。這是我的 avro 模式文件 下面是堆棧跟蹤: ...
[英]Avro schema ( .avsc ) enforcement in Pyspark
誰能幫助我通過 Pyspark 讀取 avro 架構 (.avsc ) 並在將 dataframe 寫入目標存儲時執行它? 我所有的目標表架構都以 .avsc 文件的形式提供,我需要提供此自定義架構,同時將我的 dataframe 保存在 Pyspark 中。 我知道有來自 databricks 的 ...
[英]Failed to load avro package in R
我在本地驅動器中有要讀取的 avro 文件,我希望通過 R 分析這些文件。 但是這個 package 沒有安裝。 它在 cran 中不可用,所以我必須通過 GitHub 下載。 鏈接在這里: https://github.com/RevolutionAnalytics/ravro/ 在 RStu ...
[英]Iceberg is not working when writing AVRO from spark
將 AVRO 文件從 GCS 附加到表時遇到以下錯誤。 avro 文件是有效的,但我們使用的是放氣的 avro,這是一個問題嗎? Exception in thread "streaming-job-executor-0" java.lang.NoClassDefFoundError: org/ ...
[英]org.apache.avro.UnresolvedUnionException: Not in union [{“type”:“bytes”,“logicalType”:“decimal”,“precision”:18,“scale”:4},“null”]: 0.0000
我正在嘗試讀取存儲在 s3 中 hive 表中的數據,將其轉換為 Avro 格式,然后使用 Avro 記錄來構建最終的 object 並將其推送到 kafka 主題。 在我嘗試發布的 object 中,我有一個嵌套的 object,其中包含字符串和十進制類型的字段 (CarCostDetails) ...