Apache NiFi：使用 ExecuteScript 处理器处理多个 csv

Question

我有一个 70 列的 csv。 第 60 列包含一个值，该值决定记录是valid还是invalid 。 如果第 60 列有 0、1、6 或 7，则它是valid的。 如果它包含任何其他值，那么它是invalid的。

我意识到这个功能不可能完全依赖于改变 Apache NiFi 中处理器的属性。 因此，我决定使用executeScript processor并将这个 python 代码添加为文本正文。

import csv

valid =0
invalid =0
total =0
file2 = open("invalid.csv","w")
file1 = open("valid.csv","w")

with  open('/Users/himsaragallage/Desktop/redder/Regexo_2019101812750.dat.csv') as f:
    r = csv.reader(f)
    for row in f:
        # print row[1]
        total +=1

        if row[59] == "0" or row[59] == "1" or row[59] == "6" or row[59] == "7":
            valid +=1
            file1.write(row)
        else:
            invalid += 1
            file2.write(row)
file1.close()
file2.close()
print("Total : " + str(total))
print("Valid : " + str(valid))
print("Invalid : " + str(invalid))

我不知道如何使用 session 和 executeScript 处理器中的代码，如本问题所示。 所以我只是写了一个简单的 python 代码，并将有效和无效的数据指向不同的文件。 我使用的这种方法有很多局限性。

我希望能够动态处理具有不同文件名的 csv。
发送无效数据的 csv 也必须与输入 csv 具有相同的文件名。
我的redder文件夹中将有大约 20 个 csv。 所有这些都必须在一个 go 中处理。

希望您能建议我执行以下操作的方法。 随时通过编辑我使用的 python 代码为我提供解决方案，甚至完全使用一组不同的处理器，并且完全不使用ExecuteScript Processer处理器

Answer 1

这是有关如何使用QueryRecord处理器的完整分步说明

基本上，您需要设置突出显示的属性

Answer 2

您希望根据一列中的值路由记录。 在 NiFi 中有多种方法可以实现这一点。 我可以想到以下几点：

使用QueryRecord处理器按列值对记录进行分区
使用RouteOnContent处理器使用正则表达式进行路由
使用ExecuteScript处理器创建自定义路由逻辑
使用PartitionRecord处理器根据RecordPaths进行路由

我将向您展示如何使用PartitionRecord处理器解决您的问题。 由于您没有提供任何示例数据，我创建了一个示例用例。 我想将欧洲的城市与其他地方的城市区分开来。 给出以下数据：

id,city,country
1,Berlin,Germany
2,Paris,France
3,New York,USA
4,Frankfurt,Germany

流动：

生成流文件：

分区记录：

应该设置CSVReader来推断模式和CSVRecordSetWriter来继承模式。 PartitionRecord将按国家对记录进行分组，并将它们与具有国家值的属性country一起传递。 您将看到以下记录组：

id,city,country
1,Berlin,Germany
4,Frankfurt,Germany

id,city,country
2,Paris,France

id,city,country
3,New York,USA

每个组都是一个流文件，并且将具有国家属性，您将使用该属性来路由组。

RouteOn属性：

来自欧洲的所有国家都将被路由到 is_europe 关系。 现在您可以将相同的策略应用于您的用例。

Apache NiFi：使用 ExecuteScript 处理器处理多个 csv

问题描述

2 个解决方案

解决方案1
2 2019-11-06 00:34:58

解决方案2
1 已采纳 2019-11-07 18:47:44

Apache NiFi：使用 ExecuteScript 处理器处理多个 csv

问题描述

2 个解决方案

解决方案1 2 2019-11-06 00:34:58

解决方案2 1 已采纳 2019-11-07 18:47:44

解决方案1
2 2019-11-06 00:34:58

解决方案2
1 已采纳 2019-11-07 18:47:44