標簽[apache-spark-xml] - 堆棧內存溢出

[英]spark-xml: Crashing out of memory trying to parse single large XML file

我正在嘗試將具有嵌套 XML 模式的 bz2 壓縮 XML 文件處理為規范化表，其中模式的每個級別存儲為一行，並且任何子元素都存儲為單獨表中的行，外鍵與它是子項的鍵控行。這些文件可能相當大，181MB 壓縮后從單個文件中分解成大量行。如果我們不向 DataFrameReader 提供架構，它會 ...

默認情況下，Spark-XML 排序 Dataframe 架構

[英]Spark-XML sort Dataframe schema by default

我正在嘗試使用 Databricks 的“Spark-XML”jar 通過 Spark 讀取 SAP ABAB XML。我的問題是輸出數據幀模式默認按字母順序排序，我想維護 XML 模式順序。 XML文件：<?xml version="1.0" encoding="utf-16"?> ...

如何使用 dbx 安裝 spark-xml 庫

[英]How to install spark-xml library using dbx

我正在嘗試使用dbx安裝庫spark-xml_2.12-0.15.0 。我找到的文檔是將其包含在conf/deployment.yml文件中，例如：您可以在此處查看文檔頁面： https://dbx.readthedocs.io/en/latest/guides/jvm/jvm_devops/? ...

如果屬性不存在值，則 Spark xpath function 返回 null

[英]Spark xpath function to return null if no value present for an attribute

我正在使用 spark xpath 從 xml 字符串中獲取屬性值。 xpath 從 xml 標簽返回一個值數組。如果標簽中存在多行，其中一行的屬性為 null，則 xpath function 將忽略返回數組中的該值。我正在尋找的是，如果該值不存在，則返回一個默認字符串，這樣它就不會改變數 ...

使用 pyspark 讀取 xml 文件時記錄損壞

[英]corrupt record while reading xml file using pyspark

我正在嘗試在 pyspark 的數據框中讀取 xml 文件。代碼： df_xml=spark.read.format("com.databricks.spark.xml").option("rootTag","dataset").option("rowTag","AUTHOR").load(Fi ...

如何在不使用 Spark 的情況下從 Synapse 筆記本中的 Azure 數據湖讀取 XML 文件

[英]How To Read XML File from Azure Data Lake In Synapse Notebook without Using Spark

我有一個 XML 文件存儲在 Azure 數據湖中，我需要從 Synapse 筆記本中讀取它。但是當我使用 spark-xml 庫閱讀這個時，我得到了這個錯誤：樣本 xml 如下所示：請注意，d:Id 和 d:ID 的標簽會導致重復錯誤。發現此文檔指出雖然它們的大小寫不同，但它們被認為是重復 ...

使用 spark-xml ZEFE90A8E604A7C840D8ZFA3 使用 XSD 解析 XML 時得到空 dataframe

[英]Getting empty dataframe on parsing XML with XSD using spark-xml package

我試圖通過提供 XSD 模式來解析簡單的 XML 。使用這里給出的方法。 https://github.com/databricks/spark-xml#xsd-support XML 在這里： XSD 在這里：我正在嘗試閱讀此 XSD 並嘗試構建如下所示的架構。這里模式成功解析。接 ...

如何在讀取 Pyspark Databricks 中的 XML 文件時忽略注釋？

[英]How to ignore comments while reading an XML file in Pyspark Databricks?

我正在嘗試讀取 PySpark 中 Azure Databricks Notebook 中的 xml 文件。問題是我的persons.xml在開頭有一些評論。我只想在閱讀文件時忽略它們。 ...

為什么在 Spark 中重新分區比 partitionBy 快？

[英]Why is repartition faster than partitionBy in Spark?

我正在嘗試將 Spark 用於一個非常簡單的用例：給定大量文件 (90k)，其中包含數百萬台設備的設備時間序列數據，將給定設備的所有時間序列讀取分組為一組文件（划分）。現在假設我們的目標是 100 個分區，並且給定的設備數據顯示在同一個輸出文件中並不重要，只是同一個分區。鑒於這個問題，我們提出 ...

在 spark 中分解多個數組列以更改輸入模式

[英]Exploding multiple array columns in spark for a changing input schema

下面是我的示例架構。我需要分解所有數組類型的列。我有大約 80 多列，並且列不斷變化。我目前正在使用explode(array_zip) 通過使用，我可以得到 output。但這僅適用於一個特定文件。就我而言，將經常添加新列。那么，是否有任何 function 可以分解多個列以更改架構以及 ...

(spark-xml) 使用 from_xml function 解析 xml 列時僅接收 null

[英](spark-xml) Receiving only null when parsing xml column using from_xml function

我正在嘗試使用 spark-xml 解析一個非常簡單的 XML 字符串列，但即使正確填充了 XML 值，我也只能設法接收null值。我用來解析 xml 的 XSD 是：<xs:schema attributeFormDefault="unqualified" elementFormDefa ...

如何使用 spark-xml package 解析 XML 和 XSD？

[英]How to parse XML with XSD using spark-xml package?

我試圖通過提供 XSD 模式來解析簡單的 XML 。使用這里給出的方法。 https://github.com/databricks/spark-xml#xsd-support XML 在這里： XSD 在這里：我正在嘗試閱讀此 XSD 並嘗試構建如下所示的架構。這里模式成功解析。接 ...

通過 Dataframe 讀取 XML 文件

[英]Reading XML File Through Dataframe

我有如下格式的 XML 文件。我使用以下代碼在其上構建了 dataframe。雖然代碼顯示 3 行並檢索 id 和 type 字段，但它沒有顯示實際值，即 89:19:00.01、1.9.5.67.2、AB-CD-EF 如果我必須在上面的行中添加任何其他選項以帶來值，請您幫助我。 ...

使用 DBR 7.3.x+ 將 XML 文件加載到 PySpark 中的 dataframe

[英]Load XML file to dataframe in PySpark using DBR 7.3.x+

我正在嘗試使用 databricks 筆記本中的 PySpark 將 XML 文件加載到 dataframe 中。這樣做時，我收到以下錯誤： Databricks 運行時版本：7.3 LTS Spark 版本：3.0.1 Scala 版本：2.12 相同的代碼塊在 DBR 6.4 Spark ...

如何從具有屬性的多個嵌套 XML 文件轉換為火花數據框數據

[英]How to transform to spark Data Frame data from multiple nested XML files with attributes

如何將以下值從多個 XML 文件轉換為 spark 數據框：來自Level_0的屬性Id0 來自Level_4的Date / Value 所需 output：文件_1.xml：文件_2.xml：當前代碼示例：當前 Output：（缺少屬性的Id0列）有一些示例，但沒有一個可以解決問題：- ...

是否可以在數據塊增量表的同一列中存儲 2 種不同的結構類型？

[英]Is it possible to store 2 different struct types in the same column of a data bricks delta table?

我收到多個需要加載到一張表中的 XML 文件。那些 XML 文件對於特定列具有不同的結構類型。我想知道這個列是否可以以某種方式存儲在數據塊表的同一列中。請參閱下面我為同一列 col1 獲得的不同結構類型。在 file1 col1 是 struct 和 col1a 是 struct 和 co ...

從 Azure Databricks 中的 azure 存儲容器讀取文件並修改文件名

[英]Read files And Modify filename from the azure storage containers in Azure Databricks

我正在攝取大型 XML 文件並根據 XML 元素生成單獨的 JSON，我在 azure 數據塊中使用 SPARK-XML。將 json 文件創建為的代碼我能夠提取 XML 元素節點並寫入 Azure 存儲容器。在容器中創建了一個文件夾，在該文件夾中，我們使用 guid 命名而不是文件名。 ...

如何訪問數組類型值並在兩個不同的列中設置火花？

[英]How to access array type value and set in two different columns spark?

我正在學習 Spark，我有以下 xml，我想從中讀取 2 個值並創建兩個不同的列我想如果 type="test" 那么它應該在新列“app_test”中設置值（即 8.52544）和如果 type="dev" 那么它應該在新列“app_dev”中設置值（即 8.52537）我在下面試過但它 ...

從 ADLS Gen2 錯誤讀取文件 - 找不到配置屬性 xxx.dfs.core.windows.net

[英]File read from ADLS Gen2 Error - Configuration property xxx.dfs.core.windows.net not found

我正在使用來自 Databricks 筆記本的 ADLS Gen2，它試圖使用“abfss”路徑處理文件。我能夠很好地讀取鑲木地板文件，但是當我嘗試加載 XML 文件時，我收到錯誤找不到配置 - 找不到配置屬性 xxx.dfs.core.windows.net。我沒有嘗試安裝文件，但試圖了解它 ...

如何使用 scala 從 dataframe 創建一個 XML 字符串

[英]How to create an XML string from dataframe using scala

我有一個場景，我正在從我的 hive 表中讀取並創建一個火花 dataframe。我想從 dataframe 的 output 生成一個 xml 字符串並將其保存在一個新的 dataframe 中（作為 8 寫入 88783 的字符串）在 HDFS 中創建一個 xml。請告訴我這是否可以使用 dat ...