[英]Azure HDInsight - SparkSql : How to load csv file from github in dataframe
我是新來的火花。 我正在嘗試將 github 中保存的 csv 數據導入到 azure 中 PySpark 筆記本中的數據幀中。
from pyspark.sql import SparkSession
url = "https://raw.githubusercontent.com/MicrosoftLearning/20775_Performing-Data-Engineering-on-Microsoft-HDInsight/master/Allfiles/Demofiles/Mod04/clidata/hvac/HVAC.csv"
spark = SparkSession \
.builder \
.appName("how to read csv file") \
.getOrCreate()
df = spark.read.csv(url)
我收到以下錯誤消息
調用 o1298.csv 時出錯。
: java.lang.UnsupportedOperationException
at org.apache.hadoop.fs.http.AbstractHttpFileSystem.listStatus(AbstractHttpFileSystem.java:91)
我正在尋求社區的幫助。
試試這個
>>> from pyspark import SparkFiles
>>> url = "https://raw.githubusercontent.com/MicrosoftLearning/20775_Performing-Data-Engineering-on-Microsoft-HDInsight/master/Allfiles/Demofiles/Mod04/clidata/hvac/HVAC.csv"
>>> spark.sparkContext.addFile(url)
>>> df = spark.read.csv("file://"+SparkFiles.get("HVAC.csv"), header='True')
>>> df.count()
8000
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.