簡體   English   中英

無法將oracle中的XMLTYPE數據類型加載到Spark SQL中

[英]Unable to load XMLTYPE datatype from oracle into the Spark SQL

我有6700萬條Oracle記錄,其中一些列XMLType作為數據類型。

我正在使用Spark SQLOracle提取所有記錄,但我得到了

數據類型不支持的錯誤

在Spark控制台中。

如何更改XMLType以便它可以成功將其加載到Spark SQL

我的計划是將所有這些記錄從Oracle加載到Apache HBase我使用Spark SQL將加載加載到Apache HBase

添加spark xml支持庫以下是坐標

groupId:com.databricks artifactId:spark-xml_2.11 version:0.4.1

那么您可以將XML文件作為數據框獲取,如:

import org.apache.spark.sql.SQLContext
val sqlContext = new SQLContext(sc)
val df = sqlContext.read
        .format("com.databricks.spark.xml")
        .option("rowTag", "book")
        .load("books.xml")  

有關更多信息,請查看Apache Spark的XML數據源

一旦將其轉換為數據幀,就可以在數據幀上執行spark sql。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM