Azure HDInsight - SparkSql：如何從數據幀中的 github 加載 csv 文件

Question

我是新來的火花。 我正在嘗試將 github 中保存的 csv 數據導入到 azure 中 PySpark 筆記本中的數據幀中。

from pyspark.sql import SparkSession
url = "https://raw.githubusercontent.com/MicrosoftLearning/20775_Performing-Data-Engineering-on-Microsoft-HDInsight/master/Allfiles/Demofiles/Mod04/clidata/hvac/HVAC.csv"

spark = SparkSession \
    .builder \
    .appName("how to read csv file") \
    .getOrCreate()  
df = spark.read.csv(url)

我收到以下錯誤消息

調用 o1298.csv 時出錯。

: java.lang.UnsupportedOperationException
    at org.apache.hadoop.fs.http.AbstractHttpFileSystem.listStatus(AbstractHttpFileSystem.java:91)

我正在尋求社區的幫助。

Answer 1

試試這個

>>> from pyspark import SparkFiles
>>> url = "https://raw.githubusercontent.com/MicrosoftLearning/20775_Performing-Data-Engineering-on-Microsoft-HDInsight/master/Allfiles/Demofiles/Mod04/clidata/hvac/HVAC.csv"

>>> spark.sparkContext.addFile(url)

>>> df = spark.read.csv("file://"+SparkFiles.get("HVAC.csv"), header='True')

>>> df.count()
8000

Azure HDInsight - SparkSql：如何從數據幀中的 github 加載 csv 文件

問題描述

1 個解決方案

解決方案1
0 2021-07-24 09:33:36

Azure HDInsight - SparkSql：如何從數據幀中的 github 加載 csv 文件

問題描述

1 個解決方案

解決方案1 0 2021-07-24 09:33:36

解決方案1
0 2021-07-24 09:33:36