繁体 English 中英

重复数据删除工作与Reducer中的预期不符

[英]Deduplication work not as expected in reducer

原文 2019-01-23 14:36:37 3 1 java/ mapreduce

我有一个PersonDto对象，它覆盖了equals()和hashCode()方法。

减速器中的主要代码：

Set<PersonDto> set = new HashSet()<>;
while(iterator.hasNext()){
   Record red= iterator.next();
   PersonDto dto = new PersonDto();
   dto.setName(red.getString("name"));
   dto.setAge(red.getBigInt("age"));
   set.add(dto);
}
for (PersonDto dto : set) {
   context.write(new Text(dto.getname()+","+dto.getAge()));
}

但是HDFS上的最终文件显示相同的记录仍然存在。 代码有什么问题？ 我应该使用地图密钥进行重复数据删除吗？

1 个解决方案

您是否有1个以上的减速器？ 如果是，则存在一个可能性，即在多个化简器中可以使用同一Person对象。 在这种情况下，由于每个reducer都是自己执行并写入HDFS，因此最终输出中可能会有重复的Person记录。

Hadoop Reducer不起作用

[英]Hadoop Reducer does not work

在Java上使用评分框架/应用程序/服务器进行重复数据删除以与数据库输入登台一起使用

[英]Deduplication with scoring framework/application/server on Java to work with database input staging

Reducer获得的记录少于预期

[英]Reducer getting fewer records than expected

Reducer类在Hadoop MapReduce中无法按预期工作

[英]Reducer Class not working as expected in Hadoop MapReduce

为什么我的减速器无法正常工作？

[英]Why reducer does not work correctly in my case?

switchIfEmpty不能按预期工作

[英]switchIfEmpty doesnt work as expected

ConcurrentHashMap 无法按预期工作

[英]ConcurrentHashMap does not work as expected

WindowListener无法按预期工作

[英]WindowListener does not work as expected

ObjectInputStream无法正常工作

[英]ObjectInputStream doesnt work as expected

在arraylist中缓存可迭代以在reducer中进行两次迭代不起作用

[英]caching iterable in arraylist for iterating twice in reducer doesn't work

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Hadoop Reducer不起作用在Java上使用评分框架/应用程序/服务器进行重复数据删除以与数据库输入登台一起使用 Reducer获得的记录少于预期 Reducer类在Hadoop MapReduce中无法按预期工作为什么我的减速器无法正常工作？ switchIfEmpty不能按预期工作 ConcurrentHashMap 无法按预期工作 WindowListener无法按预期工作 ObjectInputStream无法正常工作在arraylist中缓存可迭代以在reducer中进行两次迭代不起作用

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM