cost 111 ms
使用 .loc 从 Dask 访问一个值

[英]Accessing a value from Dask using .loc

对于我的生活,我不知道如何组合这两个数据框。 我使用的是所有软件的最新版本,包括 Python、Pandas 和 Dask。 我的 dask dataframe 有一个字符串作为其访问索引,但是当我执行daskframe.loc[index_str]它返回一个 dask dataframe,但我认为 ...

分组 dataframe 并使用 Python/Dask/multiprocessing 以并行方式对结果矩阵执行操作?

[英]Grouping a dataframe and performing operations on the resulting matrix in a parallelized manner using Python/Dask/multiprocessing?

我正在做一个项目,我需要根据分子的 ID 对数据库中的分子进行分组,并对生成的矩阵执行操作。 我正在使用 Python,我想通过并行处理来提高性能。 我目前正在从 SDF 文件加载分子并将它们存储在 Pandas dataframe 中。每个分子都有一个 ID、一个唯一的 Pose ID 和一个唯 ...

使用 dataframe 中的数据将随机数添加到 dask dataframe 以设置限制

[英]Add random numbers to dask dataframe using data from the dataframe to set limits

我想将随机数添加到 dask dataframe,它使用原始 dataframe 的列intensity来设置每一行的随机数限制。 该代码适用于pandas和numpy.random ,但不适用于dask和dask.array 。 错误是: 似乎 numpy.random.uniform 的语法与 ...

2023-01-26 00:23:18   1   22    dask  
Dask jobqueue - 有没有办法同时启动所有工人?

[英]Dask jobqueue - Is there a way to start all workers at the same time?

假设我在 SLURM 上有以下部署: 所以我将有 20 个节点,每个节点有 25 个核心。 有没有办法告诉 slurm 调度程序同时启动所有节点,而不是在它们可用时单独启动每个节点? 一个具体的例子:当节点单独启动时,最早启动的节点可能会等待几个小时,比如 2 小时,直到所有 20 个节点都准备就 ...

2023-01-25 23:06:26   1   17    python / dask  
dask 分布式代码比相应的串行执行慢

[英]dask distributed code is slower than corresponding serial execution

我有一个独立的 python 脚本的简单示例,它在我的桌面上运行,它有 4 个 CPU 节点,目前需要 0.735 秒。 目标是在我的 Linux 上使用单独的进程来克服 GIL 等的限制。 这是相应的串行执行,仅进行了微不足道的修改,耗时 0.0024 秒。 我哪里错了? 至少对于这种微不足道的数 ...

std::bad_alloc: out_of_memory: CUDA 导入数据/运行模型时出错

[英]std::bad_alloc: out_of_memory: CUDA error when importing data/running models

我正在尝试将数据集上传到 NVIDA RAPIDS jupyter notebook,但在导入此数据集或在 dask dataframe 上使用 XGBoost 时,此错误不断弹出。训练数据集的大小为 3.7gb。 我只有一个GPU。 一些规格: 中央处理器:i7 9700F @4.00GHz G ...

在它提供的任何机器学习 model 中使用时,statsmodels 是否与 Dask dataframe 不兼容?

[英]Is statsmodels not compatible with Dask dataframe when used in any of the machine learning model it offers?

我正在尝试使用 statsmodels 将我的数据拟合到逻辑回归 model (Logit),但我拥有的 dataframe 不是 pandas dataframe,而是 Dask dataframe。 这是我的示例数据集: smarket_1 : 响应变量: Direction 因此,当我使用来 ...

jupyter notebook 中的 asyncio 运行任务,失败时重试

[英]asyncio run task in jupyter notebook with retries upon failure

我想从 jupyter notebook 运行一个 script.py 文件:%run script.py 我的任务是异步地对 dask 集群上的数据分区运行 map-reduce。 由于连接错误,工作人员有时(大约 5% 的情况)随机崩溃,我们还没有弄清楚这是什么原因。 所以,现在,我想围绕我 ...

Dask 分区或在 NLP 节预处理中延迟

[英]Dask Partitions or Delayed in a NLP Stanza preocess

我正在使用 Stanza 处理 NLP 流程。 Stanza 需要很长时间才能运行 NLP 进程,我知道我的问题很容易分区。 我使用这些库 我有以下 function 当我使用 pandas 或 dask delayed 运行代码时,我在执行时间方面得到了相同的结果。 我也尝试用 map_part ...

在 8 亿行中获取按日期排序的列的唯一性

[英]Get unique of a column ordered by date in 800million rows

输入:具有相同列(8 亿行)的多个 csv [时间戳、用户 ID、Col1、Col2、Col3] Memory可用:60GB内存和24核CPU 输入 Output示例问题:我想按用户 ID 分组,按时间戳排序并采用唯一的 Col1,但删除重复项,同时保留基于时间戳的顺序。 尝试过的解决方案: 尝试 ...

hvplot 需要几个小时来渲染图像

[英]hvplot taking hours to render image

我正在处理来自数据发布 3 的 Gaia 天体测量数据,并且由于非常快的渲染时间和交互性,将 hvplot/datashader 视为可视化大数据的首选。 在我看到的每个示例中,在慢速端从数亿个数据点渲染图像需要几秒钟。 但是,当我尝试为我的数据使用相同的代码时,渲染任何图像都需要数小时。 对于上下 ...

如何使特定的 dask 警告静音?

[英]How to silence a specific dask warning?

当我运行我的 dask worker 时,我通过日志从他们那里收集有用的信息,但偶尔日志会被关于 unmanaged memory 的错误完全淹没。具体来说,这个错误会填满日志并使任何其他问题无法修复: 我已经调整了 yaml 文件中的日志级别以抑制任何低于错误级别的内容,但我确实想保留一些正常信 ...

用 dask dataframe 填充 SQL 数据库并转储到文件中

[英]populate SQL database with dask dataframe and dump into a file

在此 colab上重现错误和用例我有多个大表,我通过 Dask (dataframe) 读取和分析它们。 分析后,我想将它们推送到本地数据库(在本例中为 sqlite 引擎通过 sqlalchemy package。 这是一个虚拟数据: 但是, tmpfile文件是临时文件,并未存储在我的本地驱动器 ...

就地舍入和覆盖 xarray 数据

[英]Round and overwrite xarray data in place

我想将 xarray 中的所有值四舍五入到小数点后两位。 我尝试了以下方法: 我这样称呼它: 我希望data_values现在如何使用相同的值但四舍五入到小数点后两位,但这并没有发生。 编辑当我查看数据时,它如下所示: 从data_arr.data = data_arr.data.round(dec ...

Python pandas 分组依据,自定义条件转换多列

[英]Python pandas group by, transform multiple columns with custom conditions

我有 dataframe 包含 500k+ 记录,我想按多列(字符串和日期的数据类型)分组,然后根据自定义条件在每个组中只选择几条记录。 基本上,我需要对记录进行分组(按first_roll_up 、 date 、 granular_timestamp )以检查该组是否包含列top的任何值,如果存在 ...

Xarray 数据集中的重叠块,用于 Kernel 次操作

[英]Overlapping chunks in Xarray dataset for Kernel operations

我尝试使用自定义过滤器在大型卫星图像上运行 9x9 像素 kernel。 一个卫星场景大约有 40 GB,为了将其放入我的 RAM,我使用xarray的选项将我的数据集与dask块。 我的过滤器包括检查 kernel 是否完整(即没有丢失图像边缘的数据)。 在那种情况下,返回 NaN 以防止潜在的偏 ...

如何使用 pandas 将 csv 转换为镶木地板?

[英]How to convert csv to parquet using pandas?

我想将我的 CSV 文件转换为镶木地板文件。 无论chunksize参数如何,我下面的代码都会导致我的 kernel 被杀死。 我不知道文件中的行数 x 列数,但我怀疑我有很多列。 什么是理想的解决方案? 使用 Pandas: 随着时间: ...

计算大 DataFrame 成对余弦相似度的最有效方法

[英]Most efficient way of computing pairwise cosine similarity for large DataFrame

我有一个由多列组成的 300.000 行pd.DataFrame ,其中一个是 50 维numpy形状数组(1,50) ,如下所示: 然后,我生成一个具有相同形状的新numpy数组(我们称之为array2 ),并计算dataframe 的每一行与生成的数组之间的余弦相似度。 为此,我目前正在使用sk ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM