通過Apache Spark讀取json數據

Question

我試圖通過Apache Spark讀取示例Json文件，在此過程中，我觀察到一件事是您需要將整個json對象保持為一行。 如果我將整個json對象放在同一行中，則代碼運行良好，否則會出現異常。

這是我的json數據：

    [
    {
        "id": 2,
        "name": "An ice sculpture",
        "price": 12.50,
        "tags": ["cold", "ice"],
        "dimensions": {
            "length": 7.0,
            "width": 12.0,
            "height": 9.5
        },
        "warehouseLocation": {
            "latitude": -78.75,
            "longitude": 20.4
        }
    },
    {
        "id": 3,
        "name": "A blue mouse",
        "price": 25.50,
        "dimensions": {
            "length": 3.1,
            "width": 1.0,
            "height": 1.0
        },
        "warehouseLocation": {
            "latitude": 54.4,
            "longitude": -32.7
        }
    }
]

這是我的代碼：

SparkSession session = new SparkSession.Builder().appName("JsonRead").master("local").getOrCreate();
        Dataset<Row> json = session.read().json("/Users/mac/Desktop/a.json");
        json.select("tags").show();

如果是小型數據集，還可以使用其他方法處理大型json數據集嗎？

Answer 1

請參閱文檔： http : //spark.apache.org/docs/2.0.1/sql-programming-guide.html#json-datasets

JSON數據集

請注意，以json文件形式提供的文件不是典型的JSON文件。 每行必須包含一個單獨的，自包含的有效JSON對象。 因此， 常規的多行JSON文件通常會失敗。

通過Apache Spark讀取json數據

問題描述

1 個解決方案

解決方案1
2 2016-11-14 11:15:52

通過Apache Spark讀取json數據

問題描述

1 個解決方案

解決方案1 2 2016-11-14 11:15:52

解決方案1
2 2016-11-14 11:15:52