[英]reading json data through Apache Spark
我試圖通過Apache Spark讀取示例Json文件,在此過程中,我觀察到一件事是您需要將整個json對象保持為一行。 如果我將整個json對象放在同一行中,則代碼運行良好,否則會出現異常。
這是我的json數據:
[
{
"id": 2,
"name": "An ice sculpture",
"price": 12.50,
"tags": ["cold", "ice"],
"dimensions": {
"length": 7.0,
"width": 12.0,
"height": 9.5
},
"warehouseLocation": {
"latitude": -78.75,
"longitude": 20.4
}
},
{
"id": 3,
"name": "A blue mouse",
"price": 25.50,
"dimensions": {
"length": 3.1,
"width": 1.0,
"height": 1.0
},
"warehouseLocation": {
"latitude": 54.4,
"longitude": -32.7
}
}
]
這是我的代碼:
SparkSession session = new SparkSession.Builder().appName("JsonRead").master("local").getOrCreate();
Dataset<Row> json = session.read().json("/Users/mac/Desktop/a.json");
json.select("tags").show();
如果是小型數據集,還可以使用其他方法處理大型json數據集嗎?
請參閱文檔: http : //spark.apache.org/docs/2.0.1/sql-programming-guide.html#json-datasets
JSON數據集
請注意,以json文件形式提供的文件不是典型的JSON文件。 每行必須包含一個單獨的,自包含的有效JSON對象。 因此, 常規的多行JSON文件通常會失敗。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.