标签[apache-samza] - 堆栈内存溢出

应用部署在yarn中时samza如何生成container.id？ - How does samza generate the container.id when the application is deployed in yarn?

当应用程序部署在纱线中时，有人可以告诉我 samza 如何生成samza.container.id / SAMZA_CONTAINER_ID吗？我在 samza 代码库中环顾四周，但找不到生成samza.container.id的逻辑 ...

Apache Samza 刷新表立即更新到更改日志 - Apache Samza flush table update to changelog immediately

如果我为 Samza 中的 RocksDB 表指定更改日志支持。是否有配置将异步写入时间更新到更改日志？我想把它缩短到更短的时间。我在Config 参考中看不到任何内容。我想要的场景是在桥接旧版 JMS 连接后从 stream 写入变更日志。此旧连接提供部分更新，我想将部分更新合并到更完整 ...

org.apache.beam.sdk.util.UserCodeException 使用 Samza Runner 执行 Beam Pipeline - org.apache.beam.sdk.util.UserCodeException while executing Beam Pipeline using the Samza Runner

我正在尝试使用 Samza Runner 从此处运行 Wordcount 演示。这是我的 build.gradle 我的 wordcount.java 如下。我正在使用 Beam 版本 2.22.0。我尝试了以下组合。带有 Beam 2.22 的 Samza 1.4、带有 Beam 2.1 ...

与 Beam 中的运行器依赖项冲突 - Conflict with runner dependencies in Beam

我想使用 Beam 测试不同的 stream 处理引擎，但是在包含 Flink和Samza 依赖项时无法运行程序。如果只包括其中一个，则它适用于所有其他跑步者。我的pom.xml包含以下内容：<properties> <maven.compiler.releas ...

重置为 Kafka 分区中的自定义偏移量 - Reset to custom offset in Kafka partition

我正在为我正在研究的特定用例研究 Kafka。我有一个正在流动的数据流，我想对其进行处理并将其发布到中间阶段。在这些阶段（初始和中间）中的每一个阶段， Samza 任务都会进行处理和重新发布。我的要求之一是能够随时从特定阶段重新触发整个处理管道。我知道 kafka 为其每个日志（传入数据 ...

强制 RocksDB 支持的 Samza 键/值存储从 kafka 更改日志重新加载？ - Force Samza key/value store backed by RocksDB to reload from kafka changelog?

为了调试生产问题，我使用 ProcessJobFactory 在本地运行 Samza 代码。一切似乎都运行良好。该代码使用由 RocksDB 和 Kafka 支持的 Samza 键/值存储作为变更日志（Kafka 在不同的机器上运行，以防万一）。为了用真实数据填充环境进行调试，我将实时数据 ...

Samza教程编译Scala失败 - Samza tutorial compileScala FAILED

由于我是Samza和Scala的新手，因此不确定如何解决此问题。我正在关注该教程，目前停留在此部分： https : //github.com/apache/samza-hello-samza#2-start-a-grid 这是我收到的错误消息 ...

samza容器出现故障 - samza container are failing

您好，我的samza作业容器由于以下错误而经常失败：容器启动例外。容器ID：container_1540535314451_0141_01_000021退出代码：1堆栈跟踪：ExitCodeException exitCode = 1：在org.apache.hadoop.uti ...

卡夫卡生产者超时异常 - Kafka Producer TimeOutException

我正在运行将数据写入 Kafka 主题的 Samza 流作业。 Kafka 正在运行一个 3 节点集群。 Samza 作业部署在纱线上。我们在容器日志中看到了很多这些异常：这 3 种类型的异常经常出现。请帮助我了解这里的问题。每当它发生时，Samza 容器都会重新启动。 ...

Samza 0.14.1无法正确处理OffsetOutOfRangeException异常吗？ - Samza 0.14.1 not correctly handling OffsetOutOfRangeException exception?

我们正面临与此线程中描述的相同问题。在这里-Samza请求的Kafka分区偏移量太旧（即Kafka日志已向前移动）。我们将属性consumer.auto.offset.reset设置为smallest ，因此，在这种情况下，Samza希望将其检查点重置为最早的可用分区偏移量。但这 ...

在给定messageId的流数据中缓冲消息 - Buffer messages in stream data for a given messageId

用例：我有具有messageId的消息，多个消息可以具有相同的消息ID，这些消息存在于由messageId分区的流传输管道（如kafka）中，因此我确保所有具有相同messageId的消息都将进入同一分区。因此，我需要编写一份应将消息缓冲一段时间（比如说1分钟）的作业，然后将所有具有相同 ...

Samza：将消息的处理延迟到时间戳记 - Samza: Delay processing of messages until timestamp

我正在与Samza处理来自Kafka主题的消息。某些消息将来会带有时间戳，我想将处理推迟到该时间戳之后。同时，我想继续处理其他传入消息。我想做的是使我的Task在消息中排队，并实现WindowableTask来定期检查消息（如果它们的时间戳允许处理它们）。基本思想如下： ...

Spark 存在时 Hadoop 和 Streaming 解决方案的相关性 - Relevance of Hadoop & Streaming solutions when Spark exists

我正在为我的初创公司启动一个大数据计划。在 2018 年，有什么理由完全使用 Hadoop，因为 Spark 被吹捧为更快，因为它主要不是像 Hadoop 的 MR 那样将中间数据写入磁盘。我意识到 Spark 对 RAM 的需求更高，但这只是一次可以收回成本的 CAPEX 成本吗？一般来 ...

将数据从单独的kafka集群加载到Samza？ - Load data from separate kafka cluster to Samza?

我正在尝试创建一个Samza工作，使其与Wikipedia示例工作非常相似。但是，在“ WikipediaFeed”对象中，我试图从与启动Hello-Samza网格时正在运行的Kafka代理不同的Kafka代理获取数据。我是否必须在“ WikipediaFeed”对象内创建一个线程安 ...

Apache Samza：Samza REST和hello-samza入门 - Apache Samza: Getting Started with Samza REST and hello-samza

我正在遵循Apache Samza网站上的hello-samza教程，并希望按此处所述添加REST服务： http : //samza.apache.org/learn/tutorials/latest/samza-rest-getting-started.html 我可以在YARN UI ...

Samza相当于Kafka Consumer-手动偏移控制（enable.auto.commit = false） - Samza equivalent of Kafka Consumer - Manual Offset Control (enable.auto.commit = false)

我们有Samza任务，它从Kafka Output流中读取消息，但是如果在处理消息时出现任何可重试的失败，那么我希望我的Samza任务再次读取同一消息并重新处理它。在成功处理该消息后，确认该消息用于检查点。有没有一种方法可以手动控制检查点（就像Kafka Consumer通过将ena ...

与samza一起使用远程kafka主题 - consume remote kafka topic with samza

我正在尝试将hello-samza教程修改为：（1）从远程代理（即不是本地主机）上的kafka主题中读取（2）将消息写入文件我将WikipediaFeedStreamTask.java修改为如下所示：这只是标准文件，另外还有将消息写入文件的功能。我修改了属性文件 ...

您好samza无法在Windows 7中正常运行 - Hello samza not able to run properly in windows 7

我做了所有操作，如http://samza.apache.org/startup/hello-samza/0.13/所示。基本上，克隆存储库并输入“ bin / grid bootstrap”。但是最后，我收到一条错误消息，提示Zookeeper无法启动，如下所示，有人知道我该如何解决此问题 ...

如何遍历KeyValueStore中的所有元素 - how to go through all element in KeyValueStore

我有一个类型为KeyValueStore>的KeyValueStore。我不知道键的范围。有什么办法可以遍历samza中的整个keyvaluestore？谢谢 ...

还有job.coordinator.system的替代选择 - is there a alternative choice for job.coordinator.system

我想使用samza，但案例是我们的kafka主题创建受到限制（主题创建应受到审查，并且应具有具体目的）。那么，“ job.coordinator.system”还有其他选择吗？我需要用法介绍。非常感谢！ ...