cost 89 ms
分组 dataframe 并使用 Python/Dask/multiprocessing 以并行方式对结果矩阵执行操作? - Grouping a dataframe and performing operations on the resulting matrix in a parallelized manner using Python/Dask/multiprocessing?

我正在做一个项目,我需要根据分子的 ID 对数据库中的分子进行分组,并对生成的矩阵执行操作。 我正在使用 Python,我想通过并行处理来提高性能。 我目前正在从 SDF 文件加载分子并将它们存储在 Pandas dataframe 中。每个分子都有一个 ID、一个唯一的 Pose ID 和一个唯 ...

Dask jobqueue - 有没有办法同时启动所有工人? - Dask jobqueue - Is there a way to start all workers at the same time?

假设我在 SLURM 上有以下部署: 所以我将有 20 个节点,每个节点有 25 个核心。 有没有办法告诉 slurm 调度程序同时启动所有节点,而不是在它们可用时单独启动每个节点? 一个具体的例子:当节点单独启动时,最早启动的节点可能会等待几个小时,比如 2 小时,直到所有 20 个节点都准备就 ...

2023-01-25 23:06:26   1   17    python / dask  
dask 分布式代码比相应的串行执行慢 - dask distributed code is slower than corresponding serial execution

我有一个独立的 python 脚本的简单示例,它在我的桌面上运行,它有 4 个 CPU 节点,目前需要 0.735 秒。 目标是在我的 Linux 上使用单独的进程来克服 GIL 等的限制。 这是相应的串行执行,仅进行了微不足道的修改,耗时 0.0024 秒。 我哪里错了? 至少对于这种微不足道的数 ...

std::bad_alloc: out_of_memory: CUDA 导入数据/运行模型时出错 - std::bad_alloc: out_of_memory: CUDA error when importing data/running models

我正在尝试将数据集上传到 NVIDA RAPIDS jupyter notebook,但在导入此数据集或在 dask dataframe 上使用 XGBoost 时,此错误不断弹出。训练数据集的大小为 3.7gb。 我只有一个GPU。 一些规格: 中央处理器:i7 9700F @4.00GHz G ...

在它提供的任何机器学习 model 中使用时,statsmodels 是否与 Dask dataframe 不兼容? - Is statsmodels not compatible with Dask dataframe when used in any of the machine learning model it offers?

我正在尝试使用 statsmodels 将我的数据拟合到逻辑回归 model (Logit),但我拥有的 dataframe 不是 pandas dataframe,而是 Dask dataframe。 这是我的示例数据集: smarket_1 : 响应变量: Direction 因此,当我使用来 ...

jupyter notebook 中的 asyncio 运行任务,失败时重试 - asyncio run task in jupyter notebook with retries upon failure

我想从 jupyter notebook 运行一个 script.py 文件:%run script.py 我的任务是异步地对 dask 集群上的数据分区运行 map-reduce。 由于连接错误,工作人员有时(大约 5% 的情况)随机崩溃,我们还没有弄清楚这是什么原因。 所以,现在,我想围绕我 ...

在 8 亿行中获取按日期排序的列的唯一性 - Get unique of a column ordered by date in 800million rows

输入:具有相同列(8 亿行)的多个 csv [时间戳、用户 ID、Col1、Col2、Col3] Memory可用:60GB内存和24核CPU 输入 Output示例问题:我想按用户 ID 分组,按时间戳排序并采用唯一的 Col1,但删除重复项,同时保留基于时间戳的顺序。 尝试过的解决方案: 尝试 ...

hvplot 需要几个小时来渲染图像 - hvplot taking hours to render image

我正在处理来自数据发布 3 的 Gaia 天体测量数据,并且由于非常快的渲染时间和交互性,将 hvplot/datashader 视为可视化大数据的首选。 在我看到的每个示例中,在慢速端从数亿个数据点渲染图像需要几秒钟。 但是,当我尝试为我的数据使用相同的代码时,渲染任何图像都需要数小时。 对于上下 ...

如何使特定的 dask 警告静音? - How to silence a specific dask warning?

当我运行我的 dask worker 时,我通过日志从他们那里收集有用的信息,但偶尔日志会被关于 unmanaged memory 的错误完全淹没。具体来说,这个错误会填满日志并使任何其他问题无法修复: 我已经调整了 yaml 文件中的日志级别以抑制任何低于错误级别的内容,但我确实想保留一些正常信 ...

用 dask dataframe 填充 SQL 数据库并转储到文件中 - populate SQL database with dask dataframe and dump into a file

在此 colab上重现错误和用例我有多个大表,我通过 Dask (dataframe) 读取和分析它们。 分析后,我想将它们推送到本地数据库(在本例中为 sqlite 引擎通过 sqlalchemy package。 这是一个虚拟数据: 但是, tmpfile文件是临时文件,并未存储在我的本地驱动器 ...

Python pandas 分组依据,自定义条件转换多列 - Python pandas group by, transform multiple columns with custom conditions

我有 dataframe 包含 500k+ 记录,我想按多列(字符串和日期的数据类型)分组,然后根据自定义条件在每个组中只选择几条记录。 基本上,我需要对记录进行分组(按first_roll_up 、 date 、 granular_timestamp )以检查该组是否包含列top的任何值,如果存在 ...

Xarray 数据集中的重叠块,用于 Kernel 次操作 - Overlapping chunks in Xarray dataset for Kernel operations

我尝试使用自定义过滤器在大型卫星图像上运行 9x9 像素 kernel。 一个卫星场景大约有 40 GB,为了将其放入我的 RAM,我使用xarray的选项将我的数据集与dask块。 我的过滤器包括检查 kernel 是否完整(即没有丢失图像边缘的数据)。 在那种情况下,返回 NaN 以防止潜在的偏 ...

计算大 DataFrame 成对余弦相似度的最有效方法 - Most efficient way of computing pairwise cosine similarity for large DataFrame

我有一个由多列组成的 300.000 行pd.DataFrame ,其中一个是 50 维numpy形状数组(1,50) ,如下所示: 然后,我生成一个具有相同形状的新numpy数组(我们称之为array2 ),并计算dataframe 的每一行与生成的数组之间的余弦相似度。 为此,我目前正在使用sk ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM