繁体 English 中英

使用Clojure / Java从s3读取流

[英]read stream from s3 with Clojure/Java

原文 2015-11-02 07:14:48 0 2 java/ amazon-s3/ clojure

我在s3上有一个大文件，我希望在下载时解码和解析。 我碰巧使用了clojure Amazonica库，但任何库都可以。

我可以轻松获得一个流：

(def stream (-> (get-object "some-s3-bucket" "some-object-key") :input-stream))

; returns: #<S3ObjectInputStream com.amazonaws.services.s3.model.S3ObjectInputStream

但是如何阅读流？ 我可以一次读一行（解压缩的内容是JSON行）吗？

（如果我的问题有任何歧义，我只关心流的读取，而不是gzip解码的任何部分）

2 个解决方案

如果它对任何人都有帮助，那么这就是我在D-Side的有用回应之后提出的。

(ns some-project.get-s3-stream
    (:require [aws.sdk.s3 :as s3])
    (:require [clojure.java.io :as io])
    (:use [amazonica.aws.s3])
    (:import [java.util.zip GZIPInputStream]))

(def bucket "some-s3-bucket")
(def object-key "some-object-key")

(def seq-of-json-lines
  (->
   (get-object bucket object-key)
   :object-content
   (java.util.zip.GZIPInputStream.)
   io/reader
   line-seq))

由于S3ObjectInputStream碰巧扩展了java.io.InputStream ，您可以：

使用Clojure的reader函数在其上获取BufferedReader 。
以Clojure允许的任何方式从阅读器读取数据。
- 使用line-seq从BufferedReader获取延迟的行序列。 如果这对你的JSON有意义。 它可能不会。
- 使用惰性JSON解析器，例如clj-lazy-json 。 这个特殊的甚至可以处理裸流，因此可以安全地跳过步骤（1）。

如何从java中的s3输入流中获取值

[英]How to get the value from the s3 input stream in java

Clojure / Java：对Amazon S3数据流执行复杂操作时，将带宽消耗最小化的最有效方法

[英]Clojure/Java: Most effective method for minimizing bandwidth consumption when performing complex operations on a stream of Amazon S3 data

无法从Java Dataset for Spark中的AWS S3读取数据

[英]Unable to read data from AWS S3 in Java Dataset for Spark

在Java中从Amazon S3读取文件的最佳方式

[英]Best way to read a file from Amazon S3 in Java

如何在没有火花的情况下从 S3 读取 Parquet 文件？ Java

[英]How to read Parquet file from S3 without spark? Java

从 java 中的 s3 读取文件 parquet 文件

[英]Read file parquet file from s3 in java

使用 AWS Java SDK 从 S3 读取文本文件

[英]Use AWS Java SDK to read text file from S3

Java - 逐行从S3对象读取（JSON）数据

[英]Java - Read (JSON) data from S3 object line by line

如何在Java中从S3读取Snappy压缩文件

[英]How to read Snappy Compressed file from S3 in Java

从 S3 stream 读取和处理数据

[英]Reading and processing data from an S3 stream

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何从java中的s3输入流中获取值 Clojure / Java：对Amazon S3数据流执行复杂操作时，将带宽消耗最小化的最有效方法无法从Java Dataset for Spark中的AWS S3读取数据在Java中从Amazon S3读取文件的最佳方式如何在没有火花的情况下从 S3 读取 Parquet 文件？ Java 从 java 中的 s3 读取文件 parquet 文件使用 AWS Java SDK 从 S3 读取文本文件 Java - 逐行从S3对象读取（JSON）数据如何在Java中从S3读取Snappy压缩文件从 S3 stream 读取和处理数据

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM