当应用程序部署在纱线中时,有人可以告诉我 samza 如何生成samza.container.id / SAMZA_CONTAINER_ID吗? 我在 samza 代码库中环顾四周,但找不到生成samza.container.id的逻辑 ...
当应用程序部署在纱线中时,有人可以告诉我 samza 如何生成samza.container.id / SAMZA_CONTAINER_ID吗? 我在 samza 代码库中环顾四周,但找不到生成samza.container.id的逻辑 ...
如果我为 Samza 中的 RocksDB 表指定更改日志支持。 是否有配置将异步写入时间更新到更改日志? 我想把它缩短到更短的时间。 我在Config 参考中看不到任何内容。 我想要的场景是在桥接旧版 JMS 连接后从 stream 写入变更日志。 此旧连接提供部分更新,我想将部分更新合并到更完整 ...
我正在尝试使用 Samza Runner 从此处运行 Wordcount 演示。 这是我的 build.gradle 我的 wordcount.java 如下。 我正在使用 Beam 版本 2.22.0。 我尝试了以下组合。 带有 Beam 2.22 的 Samza 1.4、带有 Beam 2.1 ...
我想使用 Beam 测试不同的 stream 处理引擎,但是在包含 Flink和Samza 依赖项时无法运行程序。 如果只包括其中一个,则它适用于所有其他跑步者。 我的pom.xml包含以下内容:<properties> <maven.compiler.releas ...
我正在为我正在研究的特定用例研究 Kafka。 我有一个正在流动的数据流,我想对其进行处理并将其发布到中间阶段。 在这些阶段(初始和中间)中的每一个阶段, Samza 任务都会进行处理和重新发布。 我的要求之一是能够随时从特定阶段重新触发整个处理管道。 我知道 kafka 为其每个日志(传入数据 ...
为了调试生产问题,我使用 ProcessJobFactory 在本地运行 Samza 代码。 一切似乎都运行良好。 该代码使用由 RocksDB 和 Kafka 支持的 Samza 键/值存储作为变更日志(Kafka 在不同的机器上运行,以防万一)。 为了用真实数据填充环境进行调试,我将实时数据 ...
由于我是Samza和Scala的新手,因此不确定如何解决此问题。 我正在关注该教程,目前停留在此部分: https : //github.com/apache/samza-hello-samza#2-start-a-grid 这是我收到的错误消息 ...
您好,我的samza作业容器由于以下错误而经常失败: 容器启动例外。 容器ID:container_1540535314451_0141_01_000021退出代码:1堆栈跟踪:ExitCodeException exitCode = 1:在org.apache.hadoop.uti ...
我正在运行将数据写入 Kafka 主题的 Samza 流作业。 Kafka 正在运行一个 3 节点集群。 Samza 作业部署在纱线上。 我们在容器日志中看到了很多这些异常: 这 3 种类型的异常经常出现。 请帮助我了解这里的问题。 每当它发生时,Samza 容器都会重新启动。 ...
我们正面临与此线程中描述的相同问题。 在这里-Samza请求的Kafka分区偏移量太旧(即Kafka日志已向前移动)。 我们将属性consumer.auto.offset.reset设置为smallest ,因此,在这种情况下,Samza希望将其检查点重置为最早的可用分区偏移量。 但这 ...
用例:我有具有messageId的消息,多个消息可以具有相同的消息ID,这些消息存在于由messageId分区的流传输管道(如kafka)中,因此我确保所有具有相同messageId的消息都将进入同一分区。 因此,我需要编写一份应将消息缓冲一段时间(比如说1分钟)的作业,然后将所有具有相同 ...
我正在与Samza处理来自Kafka主题的消息。 某些消息将来会带有时间戳,我想将处理推迟到该时间戳之后。 同时,我想继续处理其他传入消息。 我想做的是使我的Task在消息中排队,并实现WindowableTask来定期检查消息(如果它们的时间戳允许处理它们)。 基本思想如下: ...
我正在为我的初创公司启动一个大数据计划。 在 2018 年,有什么理由完全使用 Hadoop,因为 Spark 被吹捧为更快,因为它主要不是像 Hadoop 的 MR 那样将中间数据写入磁盘。 我意识到 Spark 对 RAM 的需求更高,但这只是一次可以收回成本的 CAPEX 成本吗? 一般来 ...
我正在尝试创建一个Samza工作,使其与Wikipedia示例工作非常相似。 但是,在“ WikipediaFeed”对象中,我试图从与启动Hello-Samza网格时正在运行的Kafka代理不同的Kafka代理获取数据。 我是否必须在“ WikipediaFeed”对象内创建一个线程安 ...
我正在遵循Apache Samza网站上的hello-samza教程,并希望按此处所述添加REST服务: http : //samza.apache.org/learn/tutorials/latest/samza-rest-getting-started.html 我可以在YARN UI ...
我们有Samza任务,它从Kafka Output流中读取消息,但是如果在处理消息时出现任何可重试的失败,那么我希望我的Samza任务再次读取同一消息并重新处理它。 在成功处理该消息后,确认该消息用于检查点。 有没有一种方法可以手动控制检查点(就像Kafka Consumer通过将ena ...
我正在尝试将hello-samza教程修改为: (1)从远程代理(即不是本地主机)上的kafka主题中读取(2)将消息写入文件 我将WikipediaFeedStreamTask.java修改为如下所示: 这只是标准文件,另外还有将消息写入文件的功能。 我修改了属性文件 ...
我做了所有操作,如http://samza.apache.org/startup/hello-samza/0.13/所示。基本上,克隆存储库并输入“ bin / grid bootstrap”。 但是最后,我收到一条错误消息,提示Zookeeper无法启动,如下所示,有人知道我该如何解决此问题 ...
我有一个类型为KeyValueStore>的KeyValueStore。 我不知道键的范围。 有什么办法可以遍历samza中的整个keyvaluestore? 谢谢 ...
我想使用samza,但案例是我们的kafka主题创建受到限制(主题创建应受到审查,并且应具有具体目的)。 那么,“ job.coordinator.system”还有其他选择吗? 我需要用法介绍。 非常感谢! ...