简体   繁体   English

Azure HDInsight - SparkSql:如何从数据帧中的 github 加载 csv 文件

[英]Azure HDInsight - SparkSql : How to load csv file from github in dataframe

I am new to spark.我是新来的火花。 I am trying to import csv data kept in github into dataframe in PySpark notebook in azure.我正在尝试将 github 中保存的 csv 数据导入到 azure 中 PySpark 笔记本中的数据帧中。

from pyspark.sql import SparkSession
url = "https://raw.githubusercontent.com/MicrosoftLearning/20775_Performing-Data-Engineering-on-Microsoft-HDInsight/master/Allfiles/Demofiles/Mod04/clidata/hvac/HVAC.csv"

spark = SparkSession \
    .builder \
    .appName("how to read csv file") \
    .getOrCreate()  
df = spark.read.csv(url)

I am getting below error message我收到以下错误消息

An error occurred while calling o1298.csv.调用 o1298.csv 时出错。

: java.lang.UnsupportedOperationException
    at org.apache.hadoop.fs.http.AbstractHttpFileSystem.listStatus(AbstractHttpFileSystem.java:91)

I am seeking help from community.我正在寻求社区的帮助。

Try this one试试这个

>>> from pyspark import SparkFiles
>>> url = "https://raw.githubusercontent.com/MicrosoftLearning/20775_Performing-Data-Engineering-on-Microsoft-HDInsight/master/Allfiles/Demofiles/Mod04/clidata/hvac/HVAC.csv"

>>> spark.sparkContext.addFile(url)

>>> df = spark.read.csv("file://"+SparkFiles.get("HVAC.csv"), header='True')

>>> df.count()
8000

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM