![](/img/trans.png)
[英]How to import matplotlib python library in pyspark using sc.addPyFile()?
[英]Import python library on pyspark
Python的新手。
我想從S3中讀取一些XML文件並對其進行查詢。 我已連接到AWS,並啟動了一些EC2群集,但是我不確定如何導入獲取數據所需的庫。
我認為使用xmlutils庫將xml轉換為json,然后使用我確實有權訪問的sqlcontext庫中的read.json將起作用(請參見下文)
converter = xml2json("S3 logs", "output.sql", encoding="utf-8")
converter.convert()
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
logs = sqlContext.read.json("output.sql")
logs.registerAsTable("logs")
query_results = sqlContext.sql("SELECT * from logs...")
編輯
我正在嘗試使用此代碼塊從cloudera鏈接在我的虛擬環境中的Spark上安裝xmlutils。 (已經設置了SparkConf和SparkContext)
def import_my_special_package(x):
import my.special.package
return x
int_rdd = sc.parallelize([1, 2, 3, 4])
int_rdd.map(lambda x: import_my_special_package(x))
int_rdd.collect()
我嘗試在函數參數中將xmlutils和'xmlutils'都作為x傳遞,但沒有用。 難道我做錯了什么? 謝謝
在2015.03 AMI上默認為Python 2.7安裝了pip和virtualenv- https: //aws.amazon.com/amazon-linux-ami/2015.03-release-notes/。
上面的站點顯示了如何訪問新AMI圖像上的pip。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.