[英]apache spark Streaming textFileStream - reading gzip files
我正在使用Spark流處理放置在HDFS中的文件。 特別是使用JavaStreamingContext
類的textFileStream
方法。
由於方法名稱包含“文本”,因此我認為這只會讀取文本文件,但令我驚訝的是,它也讀取了壓縮的文本文件。
任何人都可以澄清這是否是預期的行為以及它可以讀取所有格式嗎?
是的,Spark使用Hadoop的File I / O API,該API透明地處理壓縮格式。 即使對於輸出,您也可以配置應通過屬性設置使用的壓縮方式,API會對其進行處理。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.