使用python和psycopg2将数据从S3复制到AWS Redshift

Question

我在执行copy命令以将数据从S3加载到python的Amazon Redshift时遇到问题。
我有以下复制命令：

copy moves from 's3://<my_bucket_name>/moves_data/2013-03-24/18/moves'
credentials 'aws_access_key_id=<key_id>;aws_secret_access_key=<key_secret>'
removequotes
delimiter ',';

当我使用SQL Workbench / j执行此命令时，一切都按预期工作，但是当我尝试使用python和psycopg2执行此命令时，该命令通过了OK，但未加载任何数据且未引发任何错误。
尝试了以下两个选项（假设psycopg2连接正常，因为它可以）：

cursor.execute(copy_command)  
cursor.copy_expert(copy_command, sys.stdout)

都通过且没有警告，但未加载数据

有想法吗？

谢谢

Answer 1

我已经成功使用了此精确设置（psycopg2 + redshift + COPY）。 之后您承诺了吗？ SQL Workbench默认情况下自动提交，而psycopg2默认情况下打开事务，因此直到在连接上调用commit（），数据才可见。

完整的工作流程是：

conn = psycopg2.connect(...)
cur = conn.cursor()
cur.execute("COPY...")
conn.commit()

我不认为copy_expert（）或任何cursor.copy_ *命令可与Redshift一起使用。

Answer 2

首先，确保事务已提交。

conn = psycopg2.connect(conn_string)
cur = conn.cursor()
cur.execute(copy_cmd_str)
conn.commit()

您还可以通过以下方式确保事务提交（确保释放资源），

with psycopg2.connect(conn_string) as conn:
    with conn.cursor() as curs:
        curs.execute(copy_cmd_str)

当连接退出with块时，如果该块未引发任何异常，则提交事务。 在例外情况下，事务将回滚。

其次，当要加载的数据花费很长时间并且超过connect_timeout（并且无法提交）时，即使执行提交也无济于事。 因此，当显式提交无济于事时，请尝试增加超时时间。

Answer 3

如果您使用的是sqlalchemy，则copy命令本身不会自动提交。 这为我工作：

from sqlalchemy import create_engine
eng = create_engine(...)
command = """
copy command here
"""
conn = eng.connect()
result = conn.execution_options(autocommit=True).execute(command)
result.close()

Answer 4

语法应类似于DDL语句

# Create table
c.execute('''CREATE TABLE stocks
             (date text, trans text, symbol text, qty real, price real)''')

使用python和psycopg2将数据从S3复制到AWS Redshift

问题描述

4 个解决方案

解决方案1
27 2013-03-27 01:19:26

解决方案2
14 2013-12-05 00:53:20

解决方案3
2 2018-11-29 20:44:07

解决方案4
-8 2013-03-24 22:20:28

使用python和psycopg2将数据从S3复制到AWS Redshift

问题描述

4 个解决方案

解决方案1 27 2013-03-27 01:19:26

解决方案2 14 2013-12-05 00:53:20

解决方案3 2 2018-11-29 20:44:07

解决方案4 -8 2013-03-24 22:20:28

解决方案1
27 2013-03-27 01:19:26

解决方案2
14 2013-12-05 00:53:20

解决方案3
2 2018-11-29 20:44:07

解决方案4
-8 2013-03-24 22:20:28