[英]AWS Glue - Truncate destination postgres table prior to insert
我试图在插入之前截断一个 postgres 目标表,一般来说,我试图利用已经在 GLUE 中创建的连接来触发外部函数。
有没有人能够这样做?
我已经尝试过DROP/ TRUNCATE
场景,但无法使用已经在 Glue 中创建的连接,而是使用纯 Python PostgreSQL 驱动程序pg8000 来实现。
__init__.py
Python lib path
中的 zip 文件--
)。 勾选“服务器端加密”框。然后您可以简单地创建一个连接并执行 SQL。
import sys
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame
from awsglue.job import Job
import pg8000
args = getResolvedOptions(sys.argv, [
'JOB_NAME',
'PW',
'HOST',
'USER',
'DB'
])
# ...
# Create Spark & Glue context
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
# ...
config_port = 5432
conn = pg8000.connect(
database=args['DB'],
user=args['USER'],
password=args['PW'],
host=args['HOST'],
port=config_port
)
query = "TRUNCATE TABLE {0};".format(".".join([schema, table]))
cur = conn.cursor()
cur.execute(query)
conn.commit()
cur.close()
conn.close()
在遵循@thenaturalist 回复的步骤(4)之后,
sc.addPyFile("/home/glue/downloads/python/pg8000.zip")
import pg8000
在开发端点为我工作(zeppelin notebook)
更多信息: https ://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html
data=spark.sql(sql)
conf = glueContext.extract_jdbc_conf("jdbc-commerce")
data.write \
.mode('overwrite') \
.format("jdbc") \
.option("url", conf['url']) \
.option("database", 'Pacvue_Commerce') \
.option("dbtable", "dbo.glue_1") \
.option("user", conf['user']) \
.option('truncate','true') \
.option("password", conf['password']) \
.save()
胶水 api 不支持,但 spark api 支持。
jdbc-commerce 是您在爬网时的连接名称。 使用extract_jdbc_conf获取url、用户名和密码。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.