AWS Glue - 在插入之前截断目标 postgres 表

Question

我试图在插入之前截断一个 postgres 目标表，一般来说，我试图利用已经在 GLUE 中创建的连接来触发外部函数。

有没有人能够这样做？

Answer 1

我已经尝试过DROP/ TRUNCATE场景，但无法使用已经在 Glue 中创建的连接，而是使用纯 Python PostgreSQL 驱动程序pg8000 来实现。

从 pypi 下载 pg8000的 tar
在根文件夹中创建一个空的__init__.py
压缩内容并上传到 S3
引用作业的Python lib path中的 zip 文件
将数据库连接详细信息设置为作业参数（确保在所有键名前加上-- ）。 勾选“服务器端加密”框。

然后您可以简单地创建一个连接并执行 SQL。

import sys
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame
from awsglue.job import Job

import pg8000

args = getResolvedOptions(sys.argv, [
    'JOB_NAME',
    'PW',
    'HOST',
    'USER',
    'DB'
])
# ...
# Create Spark & Glue context

job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# ...
config_port = 5432
conn = pg8000.connect(
    database=args['DB'], 
    user=args['USER'], 
    password=args['PW'],
    host=args['HOST'],
    port=config_port
)
query = "TRUNCATE TABLE {0};".format(".".join([schema, table]))
cur = conn.cursor()
cur.execute(query)
conn.commit()
cur.close()
conn.close()

Answer 2

在遵循@thenaturalist 回复的步骤（4）之后，

sc.addPyFile("/home/glue/downloads/python/pg8000.zip")

import pg8000

在开发端点为我工作（zeppelin notebook）

更多信息： https ://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html

Answer 3

为了澄清@thenaturalist zip 的说明，因为我仍然在努力解决这个问题

从pypi.org下载pg8000的 tar.gz 并解压。
压缩内容，以便您具有以下结构

pg8000-1.15.3.zip
|
| -- pg8000 <dir>
    | -- __init__.py
    | -- _version.py <optional>
    | -- core.py

上传到 s3 然后你应该可以做一个简单的import pg8000 。

注意：此时还需要废弃，因此请按照与上述相同的程序来包含废弃模块。 但是你不需要导入它。

Answer 4


data=spark.sql(sql)
conf = glueContext.extract_jdbc_conf("jdbc-commerce")
data.write \
    .mode('overwrite') \
    .format("jdbc") \
    .option("url", conf['url']) \
    .option("database", 'Pacvue_Commerce') \
    .option("dbtable", "dbo.glue_1") \
    .option("user", conf['user']) \
    .option('truncate','true') \
    .option("password", conf['password']) \
    .save()

胶水 api 不支持，但 spark api 支持。

jdbc-commerce 是您在爬网时的连接名称。 使用extract_jdbc_conf获取url、用户名和密码。

AWS Glue - 在插入之前截断目标 postgres 表

问题描述

4 个解决方案

解决方案1
15 已采纳 2018-06-22 08:50:43

解决方案2
1 2019-05-15 11:56:17

解决方案3
1 2020-07-03 01:42:14

解决方案4
0 2022-06-25 03:06:40

AWS Glue - 在插入之前截断目标 postgres 表

问题描述

4 个解决方案

解决方案1 15 已采纳 2018-06-22 08:50:43

解决方案2 1 2019-05-15 11:56:17

解决方案3 1 2020-07-03 01:42:14

解决方案4 0 2022-06-25 03:06:40

解决方案1
15 已采纳 2018-06-22 08:50:43

解决方案2
1 2019-05-15 11:56:17

解决方案3
1 2020-07-03 01:42:14

解决方案4
0 2022-06-25 03:06:40