标签[dask] - 堆栈内存溢出

使用 .loc 从 Dask 访问一个值 - Accessing a value from Dask using .loc

对于我的生活，我不知道如何组合这两个数据框。我使用的是所有软件的最新版本，包括 Python、Pandas 和 Dask。我的 dask dataframe 有一个字符串作为其访问索引，但是当我执行daskframe.loc[index_str]它返回一个 dask dataframe，但我认为 ...

分组 dataframe 并使用 Python/Dask/multiprocessing 以并行方式对结果矩阵执行操作？ - Grouping a dataframe and performing operations on the resulting matrix in a parallelized manner using Python/Dask/multiprocessing?

我正在做一个项目，我需要根据分子的 ID 对数据库中的分子进行分组，并对生成的矩阵执行操作。我正在使用 Python，我想通过并行处理来提高性能。我目前正在从 SDF 文件加载分子并将它们存储在 Pandas dataframe 中。每个分子都有一个 ID、一个唯一的 Pose ID 和一个唯 ...

使用 dataframe 中的数据将随机数添加到 dask dataframe 以设置限制 - Add random numbers to dask dataframe using data from the dataframe to set limits

我想将随机数添加到 dask dataframe，它使用原始 dataframe 的列intensity来设置每一行的随机数限制。该代码适用于pandas和numpy.random ，但不适用于dask和dask.array 。错误是：似乎 numpy.random.uniform 的语法与 ...

Dask jobqueue - 有没有办法同时启动所有工人？ - Dask jobqueue - Is there a way to start all workers at the same time?

假设我在 SLURM 上有以下部署：所以我将有 20 个节点，每个节点有 25 个核心。有没有办法告诉 slurm 调度程序同时启动所有节点，而不是在它们可用时单独启动每个节点？一个具体的例子：当节点单独启动时，最早启动的节点可能会等待几个小时，比如 2 小时，直到所有 20 个节点都准备就 ...

dask 分布式代码比相应的串行执行慢 - dask distributed code is slower than corresponding serial execution

我有一个独立的 python 脚本的简单示例，它在我的桌面上运行，它有 4 个 CPU 节点，目前需要 0.735 秒。目标是在我的 Linux 上使用单独的进程来克服 GIL 等的限制。这是相应的串行执行，仅进行了微不足道的修改，耗时 0.0024 秒。我哪里错了？至少对于这种微不足道的数 ...

std::bad_alloc: out_of_memory: CUDA 导入数据/运行模型时出错 - std::bad_alloc: out_of_memory: CUDA error when importing data/running models

我正在尝试将数据集上传到 NVIDA RAPIDS jupyter notebook，但在导入此数据集或在 dask dataframe 上使用 XGBoost 时，此错误不断弹出。训练数据集的大小为 3.7gb。我只有一个GPU。一些规格：中央处理器：i7 9700F @4.00GHz G ...

在它提供的任何机器学习 model 中使用时，statsmodels 是否与 Dask dataframe 不兼容？ - Is statsmodels not compatible with Dask dataframe when used in any of the machine learning model it offers?

我正在尝试使用 statsmodels 将我的数据拟合到逻辑回归 model (Logit)，但我拥有的 dataframe 不是 pandas dataframe，而是 Dask dataframe。这是我的示例数据集： smarket_1 ：响应变量： Direction 因此，当我使用来 ...

为什么 Pyarrow 可以读取额外的索引列而 Pandas dataframe 不能？ - Why can Pyarrow read additional index column while Pandas dataframe cannot?

我有以下代码： output 是：只是好奇，为什么 Pandas dataframe忽略__null_dask_index__列名？或者__null_dask_index__不被视为一列？ ...

等待 dask 期货时出现 TypeError - TypeError when awaiting dask futures

我收到以下错误： TypeError: object list can't be used in 'await' expression 当我尝试以dask_client.gather(futures)或await futures时。我正在使用asynchronous=True的 Dask Cli ...

jupyter notebook 中的 asyncio 运行任务，失败时重试 - asyncio run task in jupyter notebook with retries upon failure

我想从 jupyter notebook 运行一个 script.py 文件：%run script.py 我的任务是异步地对 dask 集群上的数据分区运行 map-reduce。由于连接错误，工作人员有时（大约 5% 的情况）随机崩溃，我们还没有弄清楚这是什么原因。所以，现在，我想围绕我 ...

Dask 分区或在 NLP 节预处理中延迟 - Dask Partitions or Delayed in a NLP Stanza preocess

我正在使用 Stanza 处理 NLP 流程。 Stanza 需要很长时间才能运行 NLP 进程，我知道我的问题很容易分区。我使用这些库我有以下 function 当我使用 pandas 或 dask delayed 运行代码时，我在执行时间方面得到了相同的结果。我也尝试用 map_part ...

在 8 亿行中获取按日期排序的列的唯一性 - Get unique of a column ordered by date in 800million rows

输入：具有相同列（8 亿行）的多个 csv [时间戳、用户 ID、Col1、Col2、Col3] Memory可用：60GB内存和24核CPU 输入 Output示例问题：我想按用户 ID 分组，按时间戳排序并采用唯一的 Col1，但删除重复项，同时保留基于时间戳的顺序。尝试过的解决方案：尝试 ...

hvplot 需要几个小时来渲染图像 - hvplot taking hours to render image

我正在处理来自数据发布 3 的 Gaia 天体测量数据，并且由于非常快的渲染时间和交互性，将 hvplot/datashader 视为可视化大数据的首选。在我看到的每个示例中，在慢速端从数亿个数据点渲染图像需要几秒钟。但是，当我尝试为我的数据使用相同的代码时，渲染任何图像都需要数小时。对于上下 ...

如何使特定的 dask 警告静音？ - How to silence a specific dask warning?

当我运行我的 dask worker 时，我通过日志从他们那里收集有用的信息，但偶尔日志会被关于 unmanaged memory 的错误完全淹没。具体来说，这个错误会填满日志并使任何其他问题无法修复：我已经调整了 yaml 文件中的日志级别以抑制任何低于错误级别的内容，但我确实想保留一些正常信 ...

用 dask dataframe 填充 SQL 数据库并转储到文件中 - populate SQL database with dask dataframe and dump into a file

在此 colab上重现错误和用例我有多个大表，我通过 Dask (dataframe) 读取和分析它们。分析后，我想将它们推送到本地数据库（在本例中为 sqlite 引擎通过 sqlalchemy package。这是一个虚拟数据：但是， tmpfile文件是临时文件，并未存储在我的本地驱动器 ...

就地舍入和覆盖 xarray 数据 - Round and overwrite xarray data in place

我想将 xarray 中的所有值四舍五入到小数点后两位。我尝试了以下方法：我这样称呼它：我希望data_values现在如何使用相同的值但四舍五入到小数点后两位，但这并没有发生。编辑当我查看数据时，它如下所示：从data_arr.data = data_arr.data.round(dec ...

Python pandas 分组依据，自定义条件转换多列 - Python pandas group by, transform multiple columns with custom conditions

我有 dataframe 包含 500k+ 记录，我想按多列（字符串和日期的数据类型）分组，然后根据自定义条件在每个组中只选择几条记录。基本上，我需要对记录进行分组（按first_roll_up 、 date 、 granular_timestamp ）以检查该组是否包含列top的任何值，如果存在 ...

Xarray 数据集中的重叠块，用于 Kernel 次操作 - Overlapping chunks in Xarray dataset for Kernel operations

我尝试使用自定义过滤器在大型卫星图像上运行 9x9 像素 kernel。一个卫星场景大约有 40 GB，为了将其放入我的 RAM，我使用xarray的选项将我的数据集与dask块。我的过滤器包括检查 kernel 是否完整（即没有丢失图像边缘的数据）。在那种情况下，返回 NaN 以防止潜在的偏 ...

如何使用 pandas 将 csv 转换为镶木地板？ - How to convert csv to parquet using pandas?

我想将我的 CSV 文件转换为镶木地板文件。无论chunksize参数如何，我下面的代码都会导致我的 kernel 被杀死。我不知道文件中的行数 x 列数，但我怀疑我有很多列。什么是理想的解决方案？使用 Pandas：随着时间： ...

计算大 DataFrame 成对余弦相似度的最有效方法 - Most efficient way of computing pairwise cosine similarity for large DataFrame

我有一个由多列组成的 300.000 行pd.DataFrame ，其中一个是 50 维numpy形状数组(1,50) ，如下所示：然后，我生成一个具有相同形状的新numpy数组（我们称之为array2 ），并计算dataframe 的每一行与生成的数组之间的余弦相似度。为此，我目前正在使用sk ...