標簽[aws-glue] - 堆棧內存溢出

[英]Unable to save partitioned data in in iceberg format when using s3 and glue

出現以下錯誤- 這是我在 spark 3.3 上運行的查詢，帶有膠水目錄並保存到 s3。冰山版本是1.1.0—— 但是當我嘗試在不分區的情況下保存數據時，它沒有任何問題 - 我該如何解決？ ...

[英]how to Read .Sql file stored in S3 containing multiple SQL statements

我有一個 .sql 文件存儲在 AWS 的 S3 位置，其中包含多個用分號分隔的 SQL 語句，如下所示：嘗試在 AWS Glue 作業中使用 2 種方法來讀取此 S3.sql 文件但沒有成功：方法-1：錯誤：不存在這樣的文件。即使文件存在於 S3 路徑中。 Open() function ...

AWS Glue Crawler 和 JDCBConnection：“預期字符串長度 >= 1，但發現 params.Targets.JdbcTargets[0].customJdbcDriverClassName 為 0”

[英]AWS Glue Crawler and JDCBConnection : "Expected string length >= 1, but found 0 for params.Targets.JdbcTargets[0].customJdbcDriverClassName"

我正在嘗試使用 JDBC 連接設置 AWS Glue 爬蟲，以填充我的 AWS Glue 數據目錄數據庫。我已經有一個通過測試的連接，但是當我提交我的爬蟲創建時，我有這個錯誤： "Expected string length >= 1, but found 0 for params.Tar ...

隨着 AWS Glue datacatalog 元數據大小變大，如何處理失敗的 Athena 查詢？

[英]How to deal with failing Athena queries as AWS Glue datacatalog metada size grows large?

根據我的研究，從 Glue 的數據目錄中獲取元數據的最簡單和最直接的方法是使用 Athena 並查詢information_schema數據庫。以下文章在我的研究中經常出現，由亞馬遜團隊撰寫：查詢 AWS Glue 數據目錄但是，在標題為“注意事項和限制”的部分下，寫了以下內容：如果您有少 ...

有沒有辦法從 pyspark 腳本中提取粘合作業 ID

[英]Is there a way to extract the glue job id from the pyspark script

我是 AWS glue 的新手，我正在嘗試處理 S3 中的一個 CSV 文件，該文件已經被爬蟲編目，重命名列名並添加一些帶有值的附加列，然后將 output 以 JSON 格式放入 S3 存儲桶中. 我已經能夠成功地將 AcusitionDateTime 添加為所有記錄的當前日期的新列，但我正在努 ...

無法使用 Apache Spark 在 AWS Glue 中讀取 json 個文件

[英]Unable to read json files in AWS Glue using Apache Spark

賞金將在 6 天后到期。此問題的答案有資格獲得+50聲望賞金。 RudyVerboven想讓更多人關注這個問題：我真的堅持這個並且完全沒有選擇。對於我們的用例，我們需要從 S3 存儲桶加載 json 個文件。作為處理工具，我們使用 AWS Glue。但是因為我們很快就會遷移到 Amaz ...

無服務器框架沒有獲取本地文件

[英]Serverless Framework not getting localfiles

我遇到了有關無服務器框架的問題，我想創建一個粘合作業。但是在創建資源時我只能選擇一個 s3 路徑。為什么我不能在我的存儲庫中選擇本地路徑？這是無服務器內部的限制還是我設置不正確任何人都知道如何解決這個問題。我知道 serverless-glue 插件存在，但它沒有以我可以正確使用它的方式實現 ...

膠水無法識別 Delta Lake Python 庫

[英]Glue not able to recognize Delta Lake Python Library

我正在嘗試在我的 Glue 作業中使用 Delta Lake Python 庫。但是，我的 Glue 作業無法識別它，並且出現錯誤“NameError：name 'DeltaTable' is not defined”。根據 Glue-DeltaLake 文檔，我添加了參數 --datalake ...

AWS Glue ExecutorLostFailure（執行程序 15 因其中一項正在運行的任務而退出）原因：遠程 RPC 客戶端已取消關聯

[英]AWS Glue ExecutorLostFailure (executor 15 exited caused by one of the running tasks) Reason: Remote RPC client disassociated

我有一個簡單的粘合工作，我使用 pyspark 使用 JDBC 從 RDS 讀取 1400 萬行，然后嘗試將其保存到 S3 中。我可以在 Glue 中看到 Output 日志，讀取和創建 dataframe 很快，但是在調用寫操作時失敗並出現錯誤：調用 o89.save 時出錯。 Job ab ...

如何在 Glue 作業中轉換嵌套數組

[英]How to cast a nested array in Glue job

我在 AWS Glue 作業中有這個模式：我可以使用 resolveChoice() 方法將 FilteredOutDecisions.ApprovedAmount 字符串加倍：但我想知道如何將FilteredOutDecisions.Reasons轉換為字符串。誰能幫我解決這個問題？提前致 ...

Aws Glue Workflow 多次觸發一項工作（不正確的行為）

[英]Aws Glue Workflow triggering multiple times one job (incorrect behavior)

我有一個很大的膠水工作流程（大約 100 個作業/爬蟲），直到上周它都在正常執行。從那時起，我的第一個條件觸發器 (ALL) 執行了 20 次相同的作業。我自己配置了作業，只允許 1 次並行執行，但每次執行工作流時，它都會嘗試啟動 20 次（同一作業）。還配置了工作流，以允許最大並發數為 1 ...

Datasketches.whl Linux ARM64 for AWS Glue 作業

[英]Datasketches .whl Linux ARM64 for AWS Glue Job

我在 Linux ARM64 上安裝 python datasketches==4.0.0時遇到了一些麻煩。我在運行pip3 install datasketches==4.0.0時收到以下錯誤：我如何生成一個可以在 Linux ARM64 of datasketches==4.0.0 上運行的 ...

如何從 Glue Python 作業中讀取步驟 Function 中的輸入 state？

[英]How to read the input state in a Step Function from a Glue Python job?

我有一個步驟 function 為下一步生成以下輸入：其中"input":[...]中的字段是其他步驟的 output。我工作的步驟 function 是工作代碼是傳遞給 Glue Python 作業的 arguments 似乎未被解析。我怎樣才能從那里訪問"input":[...] ？ ...

使用 Glue Job 更新/刪除 DyanamoDb 中的項目

[英]Update/Delete an Item in DyanamoDb using Glue Job

我正在使用 pyspark 從 Glue Job 訪問 DynamoDB。目前我正在使用 write_dynamic_frame_from_options 方法在 Dynamo DB 中編寫一個條目，它工作正常。現在我需要更新或刪除 DynamoDB 中的現有項目，有沒有辦法做到這一點。我查看了 ...

aws 上膠水爬蟲的更新時間表

[英]update schedule of a glue crawler on aws

我創建了一個 aws 爬蟲來使用create_crawler在 s3 和 athena 表之間更新/同步數據。我已經使用Schedule參數按計划運行它，現在我希望將爬蟲的schedule更新為新時間。我正在嘗試使用start_crawler_schedule ，但這只需要CrawlerName ...

從 Apache Hudi 表中刪除記錄，這是使用 AWS Glue Job 和 Kinesis 創建的 Glue 表的一部分

[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis

我目前配置了一個 DynamoDB stream，它在插入/更新發生時將流輸入到 Kinesis 數據流中，隨后我有 Glue 表，它從上面的 kinesis stream 獲取輸入，然后顯示結構模式，還有一個 Glue 腳本幫助我創建一個可以使用 Athena 訪問的 Hudi 表。我目前能夠 ...

使用aws將JSON轉換為Apache Parquet格式的最佳方法

[英]Best way to convert JSON to Apache Parquet format using aws

我一直在做一個項目，我一直在將物聯網數據存儲在 s3 存儲桶中並使用 aws kinesis firehose 對它們進行批處理，我有一個 lambda function 在交付 stream 上運行，我將紀元毫秒時間轉換為具有日期的正確時間戳和時間。這是我的示例 JSON 有效負載我現在想將 ...

將深度嵌套的字段向上移動一層 pyspark dataframe

[英]Move deeply nested fields one level up in pyspark dataframe

我有一個從 XML 創建的 pyspark dataframe。由於 XML 的結構方式，我在 dataframe 的架構中有一個額外的、不必要的嵌套級別。我當前的 dataframe 的架構：我正在嘗試用下面的電影數組替換電影結構，如下所示：我得到的最接近的是使用：from pyspark ...

當我嘗試從 Power BI 連接到 Athena 時出錯

[英]Error when I'm trying to connect to Athena from power BI

這個錯誤告訴我： ODBC：錯誤 [HY000] [Simba][Athena] (1041) AWS Glue 客戶端引發錯誤。 Athena 錯誤編號：15、HTTP 響應代碼：400、異常名稱：AccessDeniedException、錯誤消息：用戶：arn:aws:iam::00624 ...

日期時間格式的轉換

[英]Conversion of datetime format

我有數據類型為字符串的列名requestdatetime 。 requestdatetime的值采用15/Aug/2022:01:54:41 +0000格式我需要將15/Aug/2022:01:54:41 +0000轉換為 'yyyy-MM-dd HH:mm:ss' 格式。我試過 date_pa ...