Iterable接口的歧义及其在Java中的实现

Question

当我们在这个接口上调用next()方法时，Java Iterator接口是否强制我们返回一个新的 Object ？ 我浏览了文档，没有义务为每次调用返回一个新的 Object，但这会导致很多歧义。 看来，Hadoop mapreduce 框架打破了一些未记录的规则，这在我的简单程序中引起了很多问题（包括使用 Java8 Streams）。 当我在Iterator上调用next()方法时，它返回相同的 Object 具有不同的内容（虽然这违背了我的想象，但它似乎并没有违反Iterator的规则，至少它似乎没有违反记录的规则Iterator接口）。 我想知道为什么会这样？ 是 mapreduce 故障吗？ 还是 Java 错误，因为没有记录Iterator接口以在每次调用next()方法时返回新实例：

为了简单起见并显示 hadoop mapreduce 中发生的事情，我编写了自己的Iterator ，它类似于 mapreduce 正在做的事情，所以你不能理解我在做的很多问题但请专注于我试图展示的概念）。 想象一下，我有以下Hospital实体：

@Getter
@Setter
@AllArgsConstructor
@ToString
public class Hospital {
    private AREA area;
    private int patients;

    public Hospital(AREA area, int patients) {
        this.area = area;
        this.patients = patients;
    }

    public Hospital() {
    }
}

为此我写了以下MyCustomHospitalIterable ：

public class MyCustomHospitalIterable implements Iterable<Hospital> {

    private List<Hospital> internalList;
    private CustomHospitalIteration customIteration = new CustomHospitalIteration();

    public MyCustomHospitalIterable(List<Hospital> internalList) {
        this.internalList = internalList;
    }

    @Override
    public Iterator<Hospital> iterator() {
        return customIteration;
    }

    public class CustomHospitalIteration implements Iterator<Hospital> {
        private int currentIndex = 0;
        private Hospital currentHospital = new Hospital();

        @Override
        public boolean hasNext() {

            if (MyCustomHospitalIterable.this.internalList.size() - 1 > currentIndex) {
                currentIndex++;
                return true;
            }
            return false;
        }

        @Override
        public Hospital next() {
            Hospital hospital =
                    MyCustomHospitalIterable.this.internalList.get(currentIndex);
            currentHospital.setArea(hospital.getArea());
            currentHospital.setPatients(hospital.getPatients());
            return currentHospital;
        }
    }
}

在这里，我没有在 next() 方法调用上返回新的 Object，而是返回具有不同内容的相同 Object。 你可能会问这样做有什么好处？ 它在 mapreduce 中具有自己的优势，因为在大数据中，出于性能考虑，他们不想创建新的 Object。 这是否违反了Iterator接口的任何记录规则？

现在让我们看看以这种方式实现Iterable的一些后果：考虑以下简单程序：

 public static void main(String[] args) {
        List<Hospital> hospitalArray = Arrays.asList(
                new Hospital(AREA.AREA1, 10),
                new Hospital(AREA.AREA2, 20),
                new Hospital(AREA.AREA3, 30),
                new Hospital(AREA.AREA1, 40));

        MyCustomHospitalIterable hospitalIterable = new MyCustomHospitalIterable(hospitalArray);
        List<Hospital> hospitalList = new LinkedList<>();
        Iterator<Hospital> hospitalIter = hospitalIterable.iterator();
        while (hospitalIter.hasNext()) {
            Hospital hospital = hospitalIter.next();
            System.out.println(hospital);
            hospitalList.add(hospital);
        }
        System.out.println("---------------------");
        System.out.println(hospitalList);
}

程序的output如下：

Hospital{area=AREA2, patients=20}
Hospital{area=AREA3, patients=30}
Hospital{area=AREA1, patients=40}
---------------------
[Hospital{area=AREA1, patients=40}, Hospital{area=AREA1, patients=40}, Hospital{area=AREA1, patients=40}]

更糟糕的是，想象一下当我们在 Java 中使用Streams时会发生什么。 Java 中以下程序的 output 将是什么：

public static void main(String[] args) {
        List<Hospital> hospitalArray = Arrays.asList(
                new Hospital(AREA.AREA1, 10),
                new Hospital(AREA.AREA2, 20),
                new Hospital(AREA.AREA3, 30),
                new Hospital(AREA.AREA1, 40));
        MyCustomHospitalIterable hospitalIterable = new MyCustomHospitalIterable(hospitalArray);
        Map<AREA, Integer> sortedHospital =
                StreamSupport.stream(hospitalIterable.spliterator(), false)
                        .collect(Collectors.groupingBy(
                                Hospital::getArea, Collectors.summingInt(Hospital::getPatients)));
        System.out.println(sortedHospital);
}

这取决于我们使用并行 Stream 或顺序一个：在顺序一个 output 如下：

{AREA2=20, AREA1=40, AREA3=30}

并行的是：

{AREA1=120}

作为用户，我想按原样使用接口，并且不关心该接口的实现。

问题是，在这里我知道MyCustomHospitalIterable是如何实现的，但是在 hadoop mapreduce 我必须实现像下面这样的方法，我不知道Iterable<IntWritable>来自哪里以及它的实现是什么。 我只想将它用作纯Iterable接口，但正如我在上面显示的那样，它不能按预期工作：

public void reduce(Text key, Iterable<IntWritable> values, Context context
        ) throws IOException, InterruptedException {
            List<IntWritable> list = new LinkedList<>();
            Iterator<IntWritable> iter = values.iterator();
            while (iter.hasNext()) {
                IntWritable count = iter.next();
                System.out.println(count);
                list.add(count);
            }
            System.out.println("---------------------");
            System.out.println(list);
}

这是我的问题：为什么我的简单程序坏了？

是 mapreduce 错误没有实现Iterable和Iterator的未注释的常规规则（或者我没有注意到这种行为的文档）？
还是 Java 没有记录Iterable和Iterator接口以在每次调用时返回新的 Object ？
还是我作为程序员的错？

Answer 1

为 Iterable 返回具有不同内容的相同可变 object 是非常不寻常的。 我在 java 语言参考中没有找到任何东西； 虽然搜索不多。 这很简单，也容易出错，无法正确使用语言。

您提到其他工具，例如 Streams，是恰当的。

此外，下一个 java 的记录类型仅适用于类似元组的用法，当然也可以用作多个不可变对象。 “您的”Iterable 无法在 collections 中使用，除非 on 执行.next().clone()等。

Iterable 的这个弱点与将可变 object 作为 Map 键属于同一类别。 这是致命的错误。

Iterable接口的歧义及其在Java中的实现

问题描述

1 个解决方案

解决方案1
1 2020-07-16 06:05:15

Iterable接口的歧义及其在Java中的实现

问题描述

1 个解决方案

解决方案1 1 2020-07-16 06:05:15

解决方案1
1 2020-07-16 06:05:15