标签[awswrangler] - 堆栈内存溢出

在 Python 中，当列表变大时，将 SQL Where IN 子句拆分为更小的请求 - Split SQL Where IN Clause When List is to big into Smaller Requests in Python

我已经使用 python 设置了一个 AWS Lambda 函数来从 CSV 中提取请求，然后根据此请求查询 AWS Serverless Aurora PostgreSQL 数据库。该函数在请求小于 1K 时起作用，但由于数据 API 中的硬限制而出现错误。我试图找出一种方法，一旦达到此限制， ...

使用数据 API 查询 RDS Serveless Aurora 已达到 AWS 最大 BadRequestException 重试次数 - AWS Maximum BadRequestException retries reached for query Using Data API to Query RDS Serveless Aurora

我创建了一个 Lambda 函数，它使用 awswrangler 数据 api 从查询中读取来自 RDS Serverless Aurora PostgreSQL 数据库的数据。该查询包含一个条件，即 ID 列表。如果查询的 id 少于 1K，则效果很好，如果超过 1K，我会收到以下消息： M ...

wr.redshift.to_sql 在 AWS Data Wrangler2.12.1 中失败 - wr.redshift.to_sql failed in AWS Data Wrangler2.12.1

awswrangler 2.12.1 我能够将 data.head() 写入数据库，但在尝试写入所有数据时出错。数据是从另一个表复制的，并在 to_sql 之前做了一些清理。我也做了 data = data.fillna(value=np.nan) ProgrammingError: ...

awswrangler：尝试读取表时无法启动新线程 - awswrangler: Can't start a new thread when trying to read table

我正在尝试访问 AWS 存储桶中的表。当我尝试使用awswrangler.read_parquet函数访问它时，我收到一条错误消息，指出我无法访问该文件，因为我无法创建新线程。我通常可以在等待 30 分钟以上后访问该文件，但这并没有告诉我如何解决问题。以下是有关该命令的更多详细信息： ...

awswrangler 将镶木地板数据帧写入单个文件 - awswrangler write parquet dataframes to a single file

我正在创建一个无法直接放入内存的非常大的文件。所以我在 S3 中创建了一堆小文件，并正在编写一个可以读取这些文件并合并它们的脚本。我正在使用 aws wrangler 来执行此操作我的代码如下：问题是 w4.s3.to_parquet 创建了很多文件，而不是写入一个文件，我也无法删除 c ...

Visual Studio 不显示从 awswrangler 弹出的 DataFrame 帮助 - Visual Studio doesn't show help pop up with DataFrame from awswrangler

我正在使用带有 Microsoft Python 扩展的 VS Code。如果我创建一个 Pandas 数据框并写入变量 VS Code 的名称，则会弹出各种帮助文本。但是，如果我有一个使用 wr.athena.read_sql_query 创建的变量，即使该变量是 Pandas 数据框，我也不 ...

AWS Glue - 即使没有架构更改，表版本也会随着数据加载而增加 - AWS Glue - table version increases on data load even with no schema changes

我有一个 lambda 作业，它很少使用 AWS Wrangler 将镶木地板文件转储到 S3 存储桶/胶水表中。每次有新数据时，此 Glue 表似乎都会增加表版本号，即使架构未更改。我认为问题不在于 lambda 作业/牧马人，因为它按预期存放了镶木地板文件。我还单独测试了该代码，它按预期 ...

使用 pyspark 将镶木地板文件（在 aws s3 中）存储到火花 dataframe - store parquet files (in aws s3) into a spark dataframe using pyspark

我正在尝试从我的 s3 存储桶中的特定文件夹中读取数据。此数据采用镶木地板格式。为此，我正在使用awsrangler ：这将返回 pandas dataframe：但是，我想将从我的 s3 存储桶中检索到的数据存储在 spark dataframe 中，而不是 pandas datafra ...

awswrangler 和 boto3 的区别？ - Difference between awswrangler and boto3?

我已经使用 boto3 通过 python 代码与 aws 服务连接。最近我遇到了awswrangler 库，它具有与boto3 类似的功能。两者有什么区别。你能用例子解释一下我们应该在哪种情况下使用哪一种吗？ ...

使用 awswrangler 连接到 AWS Redshift - Connect to AWS Redshift using awswrangler

“MY_GLUE_CONNECTION”的值是多少？ ...

如何从 Python 3 中的 awswrangler 捕获异常。NoFilesFound 错误 - How to catch exceptions.NoFilesFound error from awswrangler in Python 3

这是我读取存储在 S3 存储桶路径中的镶木地板文件的代码。当它在路径中找到 parquet 文件时，它可以工作，但在找不到任何文件时会给出exceptions.NoFilesFound 。 Output：如果 S3 路径中没有文件，例如，如果我将path_suffix从'/y=2021/m=4 ...

awswrangler.s3.read_parquet 忽略 partition_filter 参数 - awswrangler.s3.read_parquet ignores partition_filter argument

wr.s3.read_parquet()中的partition_filter参数无法过滤 S3 上的分区 parquet 数据集。这是一个可重现的示例（可能需要正确配置的boto3_session参数）：数据集设置：然后可以在控制台中查看 S3 数据：但是使用日期过滤器重新读取会返回 4 ...

如何让 python package `awswranger` 接受自定义的`endpoint_url` - How to get python package `awswranger` to accept a custom `endpoint_url`

我正在尝试使用 python package awswrangler来访问非 AWS S3 服务。 AWS Data Wranger 文档state 您需要创建boto3.Session() object。问题是boto3.client()支持设置endpoint_url ，但boto3.Se ...

无法在 conda python 3.8 env 上正确安装 awswrangler（连接问题） - Unable to properly install awswrangler on conda python 3.8 env (Connection Issue)

这是我到目前为止所遵循的过程。创建环境：安装awswrangler ：当我将 go 导入笔记本并尝试将其导入笔记本时，出现以下错误： ...

我当前的 conda 环境正在运行 python 3.8.5。当我查看他们的文档时，它显示最新版本是 2.5.0。出于某种原因，当我最初通过conda install -c conda-forge awswrangler安装它时，它安装了 0.3.1 版。当我尝试运行时： conda ins ...

Pandas 合并两个 DF 与行替换 - Pandas merge two DF with rows replacement

我遇到了将两个 DF 合并为一个并通过第二个 DF 中的id值保存所有重复行的问题。例子：我是。期望 output 是：如您所见，我们添加了一个新列和 df1 的所有行 null 现在和id2的行被df2中的所有值替换（更新列的数量可以不同，因此不是更新特定列的值，而是替换id整行）我不关心 ...

AWS Lambda 圣杯层分段故障 - AWS Lambda Chalice Layers Segmentation Fault

我正在通过圣杯部署 Python 3.7 Lambda function。由于代码及其环境要求大于 50 MB 限制，我使用 Chalice 的“自动层”功能生成具有要求的层，即awswrangler 。因为生成的层大于 50 MB，所以我将生成的managed-layer-...-python ...

aws 使用 aws wrangler 从 athena 读取数据错误 - aws read data from athena error using aws wrangler

我正在使用 python3 我正在尝试使用 awswrangler package 从 aws athena 读取数据。下面是代码错误：我不确定要指定 sql 查询在哪里工作 ...