Apache Flink上的zipWithIndex

Question

我想为输入的每一行分配一个id - 它应该是一个从0到N - 1的数字，其中N是输入中的行数。

粗略地说，我希望能够做到以下几点：

val data = sc.textFile(textFilePath, numPartitions)
val rdd = data.map(line => process(line))
val rddMatrixLike = rdd.zipWithIndex.map { case (v, idx) => someStuffWithIndex(idx, v) }

但是在Apache Flink中。 可能吗？

Answer 1

现在这是Apache Flink的0.10-SNAPSHOT版本的一部分。 zipWithIndex(in)和zipWithUniqueId(in)示例可在官方Flink文档中找到。

Answer 2

这是一个简单的函数实现：

public class ZipWithIndex {

public static void main(String[] args) throws Exception {

    ExecutionEnvironment ee = ExecutionEnvironment.getExecutionEnvironment();

    DataSet<String> in = ee.readTextFile("/home/robert/flink-workdir/debug/input");

    // count elements in each partition
    DataSet<Tuple2<Integer, Long>> counts = in.mapPartition(new RichMapPartitionFunction<String, Tuple2<Integer, Long>>() {
        @Override
        public void mapPartition(Iterable<String> values, Collector<Tuple2<Integer, Long>> out) throws Exception {
            long cnt = 0;
            for (String v : values) {
                cnt++;
            }
            out.collect(new Tuple2<Integer, Long>(getRuntimeContext().getIndexOfThisSubtask(), cnt));
        }
    });

    DataSet<Tuple2<Long, String>> result = in.mapPartition(new RichMapPartitionFunction<String, Tuple2<Long, String>>() {
        long start = 0;

        @Override
        public void open(Configuration parameters) throws Exception {
            super.open(parameters);
            List<Tuple2<Integer, Long>> offsets = getRuntimeContext().getBroadcastVariable("counts");
            Collections.sort(offsets, new Comparator<Tuple2<Integer, Long>>() {
                @Override
                public int compare(Tuple2<Integer, Long> o1, Tuple2<Integer, Long> o2) {
                    return ZipWithIndex.compare(o1.f0, o2.f0);
                }
            });
            for(int i = 0; i < getRuntimeContext().getIndexOfThisSubtask(); i++) {
                start += offsets.get(i).f1;
            }
        }

        @Override
        public void mapPartition(Iterable<String> values, Collector<Tuple2<Long, String>> out) throws Exception {
            for(String v: values) {
                out.collect(new Tuple2<Long, String>(start++, v));
            }
        }
    }).withBroadcastSet(counts, "counts");
    result.print();

}

public static int compare(int x, int y) {
    return (x < y) ? -1 : ((x == y) ? 0 : 1);
}
}

这是它的工作原理：我正在使用第一个mapPartition()操作来遍历分区中的所有元素，以计算其中有多少元素。 我需要知道每个分区中的元素数量，以便在为元素分配ID时正确设置偏移量。 第一个mapPartition的结果是包含映射的DataSet。 我正在将此DataSet广播到所有第二个mapPartition()运算符，这些运算符将ID分配给输入中的元素。 在第二个mapPartition()的open()方法中，我计算每个分区的偏移量。

我可能会将代码贡献给Flink（在与其他提交者讨论之后）。

Apache Flink上的zipWithIndex

问题描述

2 个解决方案

解决方案1
6 已采纳 2015-07-19 15:51:39

解决方案2
5 2015-06-02 14:26:11

Apache Flink上的zipWithIndex

问题描述

2 个解决方案

解决方案1 6 已采纳 2015-07-19 15:51:39

解决方案2 5 2015-06-02 14:26:11

解决方案1
6 已采纳 2015-07-19 15:51:39

解决方案2
5 2015-06-02 14:26:11