![](/img/trans.png)
[英]Aws Glue Workflow triggering multiple times one job (incorrect behavior)
[英]aws glue triggering job
我已经修改了Glue生成的脚本,该脚本用于数据的转换和操作。 我想通过触发出现在目录中的每个新表上来运行同一作业,但不手动更改作业脚本中的表名。 简而言之,如何在脚本中对出现在数据目录中的每个新表上执行相同的转换,而不必每次都手动更改表名?
谢谢
您可以使用Catalog Client动态获取数据库中的表列表。 我不知道如何在pyspark中获取目录客户端,但是在scala中,它看起来像这样
val catalog = glueContext.getCatalogClient
for (table <- catalog.listTables("myDatabaseName", "").getTableList.asScala) {
// do your transformation
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.