[英]How to convert csv file in S3 bucket to RDD
我對這個話題很新,所以任何幫助都會非常感激。
我試圖讀取存儲在S3存儲桶中的csv文件,並將其數據轉換為RDD以直接使用它,而無需在本地創建文件。
到目前為止,我已經能夠使用AmazonS3ClientBuilder加載文件,但我唯一得到的是將文件內容放在S3ObjectInputStream中,而我無法使用其內容。
val bucketName = "bucket-name"
val credentials = new BasicAWSCredentials(
"acessKey",
"secretKey"
);
val s3client = AmazonS3ClientBuilder
.standard()
.withCredentials(new AWSStaticCredentialsProvider(credentials))
.withRegion(Regions.US_EAST_2)
.build();
val s3object = s3client.getObject(bucketName, "file-name.csv")
val inputStream = s3object.getObjectContent()
....
我也嘗試使用BufferedSource來處理它,但是一旦完成,我不知道如何將它轉換為數據幀或RDD來使用它。
val myData = Source.fromInputStream(inputStream)
....
您可以使用Hadoop-AWS模塊中提供的S3A文件系統來執行此操作:
<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>
或添加.config("fs.s3.impl", classOf[S3AFileSystem].getName)
到SparkSession
構建器 spark.read.csv("s3://bucket/key")
訪問S3。 如果你想要詢問spark.read.csv("s3://bucket/key").rdd
最后,我能夠得到我正在尋找的結果,看看https://gist.github.com/snowindy/d438cb5256f9331f5eec
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.