cost 233 ms
spark-xml:嘗試解析單個大型 XML 文件時崩潰 memory

[英]spark-xml: Crashing out of memory trying to parse single large XML file

我正在嘗試將具有嵌套 XML 模式的 bz2 壓縮 XML 文件處理為規范化表,其中模式的每個級別存儲為一行,並且任何子元素都存儲為單獨表中的行,外鍵與它是子項的鍵控行。 這些文件可能相當大,181MB 壓縮后從單個文件中分解成大量行。 如果我們不向 DataFrameReader 提供架構,它會 ...

如何使用 dbx 安裝 spark-xml 庫

[英]How to install spark-xml library using dbx

我正在嘗試使用dbx安裝庫spark-xml_2.12-0.15.0 。 我找到的文檔是將其包含在conf/deployment.yml文件中,例如: 您可以在此處查看文檔頁面: https://dbx.readthedocs.io/en/latest/guides/jvm/jvm_devops/? ...

如果屬性不存在值,則 Spark xpath function 返回 null

[英]Spark xpath function to return null if no value present for an attribute

我正在使用 spark xpath 從 xml 字符串中獲取屬性值。 xpath 從 xml 標簽返回一個值數組。 如果標簽中存在多行,其中一行的屬性為 null,則 xpath function 將忽略返回數組中的該值。 我正在尋找的是,如果該值不存在,則返回一個默認字符串,這樣它就不會改變數 ...

如何在不使用 Spark 的情況下從 Synapse 筆記本中的 Azure 數據湖讀取 XML 文件

[英]How To Read XML File from Azure Data Lake In Synapse Notebook without Using Spark

我有一個 XML 文件存儲在 Azure 數據湖中,我需要從 Synapse 筆記本中讀取它。 但是當我使用 spark-xml 庫閱讀這個時,我得到了這個錯誤: 樣本 xml 如下所示: 請注意,d:Id 和 d:ID 的標簽會導致重復錯誤。 發現此文檔指出雖然它們的大小寫不同,但它們被認為是重復 ...

使用 spark-xml ZEFE90A8E604A7C840D8ZFA3 使用 XSD 解析 XML 時得到空 dataframe

[英]Getting empty dataframe on parsing XML with XSD using spark-xml package

我試圖通過提供 XSD 模式來解析簡單的 XML 。 使用這里給出的方法。 https://github.com/databricks/spark-xml#xsd-support XML 在這里: XSD 在這里: 我正在嘗試閱讀此 XSD 並嘗試構建如下所示的架構。 這里模式成功解析。 接 ...

為什么在 Spark 中重新分區比 partitionBy 快?

[英]Why is repartition faster than partitionBy in Spark?

我正在嘗試將 Spark 用於一個非常簡單的用例:給定大量文件 (90k),其中包含數百萬台設備的設備時間序列數據,將給定設備的所有時間序列讀取分組為一組文件(划分)。 現在假設我們的目標是 100 個分區,並且給定的設備數據顯示在同一個輸出文件中並不重要,只是同一個分區。 鑒於這個問題,我們提出 ...

在 spark 中分解多個數組列以更改輸入模式

[英]Exploding multiple array columns in spark for a changing input schema

下面是我的示例架構。 我需要分解所有數組類型的列。我有大約 80 多列,並且列不斷變化。 我目前正在使用explode(array_zip) 通過使用,我可以得到 output。 但這僅適用於一個特定文件。 就我而言,將經常添加新列。 那么,是否有任何 function 可以分解多個列以更改架構以及 ...

如何使用 spark-xml package 解析 XML 和 XSD?

[英]How to parse XML with XSD using spark-xml package?

我試圖通過提供 XSD 模式來解析簡單的 XML 。 使用這里給出的方法。 https://github.com/databricks/spark-xml#xsd-support XML 在這里: XSD 在這里: 我正在嘗試閱讀此 XSD 並嘗試構建如下所示的架構。 這里模式成功解析。 接 ...

通過 Dataframe 讀取 XML 文件

[英]Reading XML File Through Dataframe

我有如下格式的 XML 文件。 我使用以下代碼在其上構建了 dataframe。 雖然代碼顯示 3 行並檢索 id 和 type 字段,但它沒有顯示實際值,即 89:19:00.01、1.9.5.67.2、AB-CD-EF 如果我必須在上面的行中添加任何其他選項以帶來值,請您幫助我。 ...

如何從具有屬性的多個嵌套 XML 文件轉換為火花數據框數據

[英]How to transform to spark Data Frame data from multiple nested XML files with attributes

如何將以下值從多個 XML 文件轉換為 spark 數據框: 來自Level_0的屬性Id0 來自Level_4的Date / Value 所需 output: 文件_1.xml: 文件_2.xml: 當前代碼示例: 當前 Output:(缺少屬性的Id0列) 有一些示例,但沒有一個可以解決問題:- ...

是否可以在數據塊增量表的同一列中存儲 2 種不同的結構類型?

[英]Is it possible to store 2 different struct types in the same column of a data bricks delta table?

我收到多個需要加載到一張表中的 XML 文件。 那些 XML 文件對於特定列具有不同的結構類型。 我想知道這個列是否可以以某種方式存儲在數據塊表的同一列中。 請參閱下面我為同一列 col1 獲得的不同結構類型。 在 file1 col1 是 struct 和 col1a 是 struct 和 co ...

從 Azure Databricks 中的 azure 存儲容器讀取文件並修改文件名

[英]Read files And Modify filename from the azure storage containers in Azure Databricks

我正在攝取大型 XML 文件並根據 XML 元素生成單獨的 JSON,我在 azure 數據塊中使用 SPARK-XML。 將 json 文件創建為的代碼 我能夠提取 XML 元素節點並寫入 Azure 存儲容器。 在容器中創建了一個文件夾,在該文件夾中,我們使用 guid 命名而不是文件名。 ...

如何訪問數組類型值並在兩個不同的列中設置火花?

[英]How to access array type value and set in two different columns spark?

我正在學習 Spark,我有以下 xml,我想從中讀取 2 個值並創建兩個不同的列 我想如果 type="test" 那么它應該在新列“app_test”中設置值(即 8.52544)和如果 type="dev" 那么它應該在新列“app_dev”中設置值(即 8.52537) 我在下面試過 但它 ...

從 ADLS Gen2 錯誤讀取文件 - 找不到配置屬性 xxx.dfs.core.windows.net

[英]File read from ADLS Gen2 Error - Configuration property xxx.dfs.core.windows.net not found

我正在使用來自 Databricks 筆記本的 ADLS Gen2,它試圖使用“abfss”路徑處理文件。 我能夠很好地讀取鑲木地板文件,但是當我嘗試加載 XML 文件時,我收到錯誤找不到配置 - 找不到配置屬性 xxx.dfs.core.windows.net。 我沒有嘗試安裝文件,但試圖了解它 ...

如何使用 scala 從 dataframe 創建一個 XML 字符串

[英]How to create an XML string from dataframe using scala

我有一個場景,我正在從我的 hive 表中讀取並創建一個火花 dataframe。我想從 dataframe 的 output 生成一個 xml 字符串並將其保存在一個新的 dataframe 中(作為 8 寫入 88783 的字符串)在 HDFS 中創建一個 xml。請告訴我這是否可以使用 dat ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM