使用Python从MS Azure读取和写入文件

Question

我是Python和Spark的新手，我正尝试将文件从Azure加载到表。 下面是我的简单代码。

 import os import sys os.environ['SPARK_HOME'] = "C:\\spark-2.0.0-bin-hadoop2.74" sys.path.append("C:\\spark-2.0.0-bin-hadoop2.7\\python") sys.path.append("C:\\spark-2.0.0-bin-hadoop2.7\\python\\lib\\py4j-0.10.1-src.zip") from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql.types import * from pyspark.sql import * sc = SparkContext("local", "Simple App") def loadFile(path, rowDelimeter, columnDelimeter, firstHeaderColName): loadedFile = sc.newAPIHadoopFile(path, "org.apache.hadoop.mapreduce.lib.input.TextInputFormat", "org.apache.hadoop.io.LongWritable", "org.apache.hadoop.io.Text", conf={"textinputformat.record.delimiter": rowDelimeter}) rddData = loadedFile.map(lambda l:l[1].split(columnDelimeter)).filter(lambda f: f[0] != firstHeaderColName) return rddData Schema= StructType([ StructField("Column1", StringType(), True), StructField("Column2", StringType(), True), StructField("Column3", StringType(), True), StructField("Column4", StringType(), True) ]) rData= loadFile("wasbs://Storagename@Accountname.blob.core.windows.net/File.txt", '\\r\\n',"#|#","Column1") DF = sc.createDataFrame(Data,Schema) DF.write.saveAsTable("Table1")

我收到类似FileNotFoundError的错误：[WinError 2]系统找不到指定的文件

Answer 1

@Miruthan，据我所知，如果我们想将WASB中的数据读取到Spark中，则URL语法如下：

wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path>

同时，由于将Azure Storage Blob（WASB）用作与HDInsight群集关联的存储帐户，请您仔细检查一下吗？ 任何更新，请让我知道。

使用Python从MS Azure读取和写入文件

问题描述

1 个解决方案

解决方案1
0 2016-09-23 06:01:27

使用Python从MS Azure读取和写入文件

问题描述

1 个解决方案

解决方案1 0 2016-09-23 06:01:27

解决方案1
0 2016-09-23 06:01:27