使用pyspark直接從網站讀取json文件

Question

是否可以使用sqlContext直接從網站讀取json文件？ 例如，我可以這樣讀取文件：

myRDD = sqlContext.read.json("sample.json")

但是當我嘗試這樣的事情時，我得到一個錯誤：

myRDD = sqlContext.read.json("http://192.168.0.13:9200/sample.json")

我正在使用Spark 1.4.1，謝謝！

Answer 1

這不可能。 您使用的路徑應指向本地文件系統或Hadoop支持的其他文件系統。 只要sample.json具有預期的格式（每行單個對象），您可以嘗試執行以下操作：

import json
import requests

r = requests.get("http://192.168.0.13:9200/sample.json")
df = sqlContext.createDataFrame([json.loads(line) for line in r.iter_lines()])

使用pyspark直接從網站讀取json文件

問題描述

1 個解決方案

解決方案1
5 已采納 2015-09-06 01:03:00

使用pyspark直接從網站讀取json文件

問題描述

1 個解決方案

解決方案1 5 已采納 2015-09-06 01:03:00

解決方案1
5 已采納 2015-09-06 01:03:00