AWS Athena 插入命名列在 pyspark 中不起作用

Question

我使用 pyspark 創建了一個小測試表

query="""
CREATE EXTERNAL TABLE IF NOT EXISTS test1
(
c1 INT,
c2 INT,
c3 INT
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
LOCATION 's3://mybucket/myfolder/'
"""
spark.sql(query)

這工作正常，產生以下 output

spark.sql("select * from test1").show()

+---+---+---+
| c1| c2| c3|
+---+---+---+
|  1|  2|  3|
|  4|  5|  6|
+---+---+---+

我的問題是現在嘗試插入。 根據我對 Athena 文檔的閱讀，我應該能夠執行以下操作，但我收到一條錯誤消息

query="""
insert into test1(c1,c2,c3) select c1,c2,c3 from test1
"""
spark.sql(query)


"\nmismatched input 'c1' expecting {'(', 'SELECT', 'FROM', 'VALUES', 'TABLE', 'INSERT', 'MAP', 'REDUCE'}(line 2, pos 21)\n\n== SQL ==\n\ninsert into test1(c1,c2,c3) select c1,c2,c3 from test1\n---------------------^^^\n"
Traceback (most recent call last):
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 767, in sql
    return DataFrame(self._jsparkSession.sql(sqlQuery), self._wrapped)
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 73, in deco
    raise ParseException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.ParseException: "\nmismatched input 'c1' expecting {'(', 'SELECT', 'FROM', 'VALUES', 'TABLE', 'INSERT', 'MAP', 'REDUCE'}(line 2, pos 21)\n\n== SQL ==\n\ninsert into test1(c1,c2,c3) select c1,c2,c3 from test1\n---------------------^^^\n"

但是，以下 INSERT 按預期工作

query="""
insert into test1 select c1,c2,c3 from test1
"""

spark.sql(query)

如果有人能看到我做錯了什么，將不勝感激

Answer 1

根據 AWS 文檔，您不需要將列名與目標表一起傳遞。 正確的查詢是：

insert into test1 select c1,c2,c3 from test1

參考： Athena 插入文檔

AWS Athena 插入命名列在 pyspark 中不起作用

問題描述

1 個解決方案

解決方案1
0 2019-10-03 17:03:24

AWS Athena 插入命名列在 pyspark 中不起作用

問題描述

1 個解決方案

解決方案1 0 2019-10-03 17:03:24

解決方案1
0 2019-10-03 17:03:24