簡體   English   中英

通過Apache Spark讀取json數據

[英]reading json data through Apache Spark

我試圖通過Apache Spark讀取示例Json文件,在此過程中,我觀察到一件事是您需要將整個json對象保持為一行。 如果我將整個json對象放在同一行中,則代碼運行良好,否則會出現異常。

這是我的json數據:

    [
    {
        "id": 2,
        "name": "An ice sculpture",
        "price": 12.50,
        "tags": ["cold", "ice"],
        "dimensions": {
            "length": 7.0,
            "width": 12.0,
            "height": 9.5
        },
        "warehouseLocation": {
            "latitude": -78.75,
            "longitude": 20.4
        }
    },
    {
        "id": 3,
        "name": "A blue mouse",
        "price": 25.50,
        "dimensions": {
            "length": 3.1,
            "width": 1.0,
            "height": 1.0
        },
        "warehouseLocation": {
            "latitude": 54.4,
            "longitude": -32.7
        }
    }
]

這是我的代碼:

SparkSession session = new SparkSession.Builder().appName("JsonRead").master("local").getOrCreate();
        Dataset<Row> json = session.read().json("/Users/mac/Desktop/a.json");
        json.select("tags").show();

如果是小型數據集,還可以使用其他方法處理大型json數據集嗎?

請參閱文檔: http : //spark.apache.org/docs/2.0.1/sql-programming-guide.html#json-datasets

JSON數據集

請注意,以json文件形式提供的文件不是典型的JSON文件。 每行必須包含一個單獨的,自包含的有效JSON對象。 因此, 常規的多行JSON文件通常會失敗。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM