簡體   English   中英

apache spark streaming textFileStream-讀取gzip文件

[英]apache spark Streaming textFileStream - reading gzip files

我正在使用Spark流處理放置在HDFS中的文件。 特別是使用JavaStreamingContext類的textFileStream方法。

由於方法名稱包含“文本”,因此我認為這只會讀取文本文件,但令我驚訝的是,它也讀取了壓縮的文本文件。

任何人都可以澄清這是否是預期的行為以及它可以讀取所有格式嗎?

是的,Spark使用Hadoop的File I / O API,該API透明地處理壓縮格式。 即使對於輸出,您也可以配置應通過屬性設置使用的壓縮方式,API會對其進行處理。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM