簡體   English   中英

使用pyspark直接從網站讀取json文件

[英]Using pyspark to read json file directly from a website

是否可以使用sqlContext直接從網站讀取json文件? 例如,我可以這樣讀取文件:

myRDD = sqlContext.read.json("sample.json")

但是當我嘗試這樣的事情時,我得到一個錯誤:

myRDD = sqlContext.read.json("http://192.168.0.13:9200/sample.json")

我正在使用Spark 1.4.1,謝謝!

這不可能。 您使用的路徑應指向本地文件系統或Hadoop支持的其他文件系統。 只要sample.json具有預期的格式(每行單個對象),您可以嘗試執行以下操作:

import json
import requests

r = requests.get("http://192.168.0.13:9200/sample.json")
df = sqlContext.createDataFrame([json.loads(line) for line in r.iter_lines()])

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM