
[英]Accessing a value from Dask using .loc
对于我的生活,我不知道如何组合这两个数据框。 我使用的是所有软件的最新版本,包括 Python、Pandas 和 Dask。 我的 dask dataframe 有一个字符串作为其访问索引,但是当我执行daskframe.loc[index_str]它返回一个 dask dataframe,但我认为 ...
[英]Accessing a value from Dask using .loc
对于我的生活,我不知道如何组合这两个数据框。 我使用的是所有软件的最新版本,包括 Python、Pandas 和 Dask。 我的 dask dataframe 有一个字符串作为其访问索引,但是当我执行daskframe.loc[index_str]它返回一个 dask dataframe,但我认为 ...
[英]Grouping a dataframe and performing operations on the resulting matrix in a parallelized manner using Python/Dask/multiprocessing?
我正在做一个项目,我需要根据分子的 ID 对数据库中的分子进行分组,并对生成的矩阵执行操作。 我正在使用 Python,我想通过并行处理来提高性能。 我目前正在从 SDF 文件加载分子并将它们存储在 Pandas dataframe 中。每个分子都有一个 ID、一个唯一的 Pose ID 和一个唯 ...
[英]Add random numbers to dask dataframe using data from the dataframe to set limits
我想将随机数添加到 dask dataframe,它使用原始 dataframe 的列intensity来设置每一行的随机数限制。 该代码适用于pandas和numpy.random ,但不适用于dask和dask.array 。 错误是: 似乎 numpy.random.uniform 的语法与 ...
[英]Dask jobqueue - Is there a way to start all workers at the same time?
假设我在 SLURM 上有以下部署: 所以我将有 20 个节点,每个节点有 25 个核心。 有没有办法告诉 slurm 调度程序同时启动所有节点,而不是在它们可用时单独启动每个节点? 一个具体的例子:当节点单独启动时,最早启动的节点可能会等待几个小时,比如 2 小时,直到所有 20 个节点都准备就 ...
[英]dask distributed code is slower than corresponding serial execution
我有一个独立的 python 脚本的简单示例,它在我的桌面上运行,它有 4 个 CPU 节点,目前需要 0.735 秒。 目标是在我的 Linux 上使用单独的进程来克服 GIL 等的限制。 这是相应的串行执行,仅进行了微不足道的修改,耗时 0.0024 秒。 我哪里错了? 至少对于这种微不足道的数 ...
[英]std::bad_alloc: out_of_memory: CUDA error when importing data/running models
我正在尝试将数据集上传到 NVIDA RAPIDS jupyter notebook,但在导入此数据集或在 dask dataframe 上使用 XGBoost 时,此错误不断弹出。训练数据集的大小为 3.7gb。 我只有一个GPU。 一些规格: 中央处理器:i7 9700F @4.00GHz G ...
[英]Is statsmodels not compatible with Dask dataframe when used in any of the machine learning model it offers?
我正在尝试使用 statsmodels 将我的数据拟合到逻辑回归 model (Logit),但我拥有的 dataframe 不是 pandas dataframe,而是 Dask dataframe。 这是我的示例数据集: smarket_1 : 响应变量: Direction 因此,当我使用来 ...
[英]Why can Pyarrow read additional index column while Pandas dataframe cannot?
我有以下代码: output 是: 只是好奇,为什么 Pandas dataframe忽略__null_dask_index__列名? 或者__null_dask_index__不被视为一列? ...
[英]TypeError when awaiting dask futures
我收到以下错误: TypeError: object list can't be used in 'await' expression 当我尝试以dask_client.gather(futures)或await futures时。 我正在使用asynchronous=True的 Dask Cli ...
[英]asyncio run task in jupyter notebook with retries upon failure
我想从 jupyter notebook 运行一个 script.py 文件:%run script.py 我的任务是异步地对 dask 集群上的数据分区运行 map-reduce。 由于连接错误,工作人员有时(大约 5% 的情况)随机崩溃,我们还没有弄清楚这是什么原因。 所以,现在,我想围绕我 ...
[英]Dask Partitions or Delayed in a NLP Stanza preocess
我正在使用 Stanza 处理 NLP 流程。 Stanza 需要很长时间才能运行 NLP 进程,我知道我的问题很容易分区。 我使用这些库 我有以下 function 当我使用 pandas 或 dask delayed 运行代码时,我在执行时间方面得到了相同的结果。 我也尝试用 map_part ...
[英]Get unique of a column ordered by date in 800million rows
输入:具有相同列(8 亿行)的多个 csv [时间戳、用户 ID、Col1、Col2、Col3] Memory可用:60GB内存和24核CPU 输入 Output示例问题:我想按用户 ID 分组,按时间戳排序并采用唯一的 Col1,但删除重复项,同时保留基于时间戳的顺序。 尝试过的解决方案: 尝试 ...
[英]hvplot taking hours to render image
我正在处理来自数据发布 3 的 Gaia 天体测量数据,并且由于非常快的渲染时间和交互性,将 hvplot/datashader 视为可视化大数据的首选。 在我看到的每个示例中,在慢速端从数亿个数据点渲染图像需要几秒钟。 但是,当我尝试为我的数据使用相同的代码时,渲染任何图像都需要数小时。 对于上下 ...
[英]How to silence a specific dask warning?
当我运行我的 dask worker 时,我通过日志从他们那里收集有用的信息,但偶尔日志会被关于 unmanaged memory 的错误完全淹没。具体来说,这个错误会填满日志并使任何其他问题无法修复: 我已经调整了 yaml 文件中的日志级别以抑制任何低于错误级别的内容,但我确实想保留一些正常信 ...
[英]populate SQL database with dask dataframe and dump into a file
在此 colab上重现错误和用例我有多个大表,我通过 Dask (dataframe) 读取和分析它们。 分析后,我想将它们推送到本地数据库(在本例中为 sqlite 引擎通过 sqlalchemy package。 这是一个虚拟数据: 但是, tmpfile文件是临时文件,并未存储在我的本地驱动器 ...
[英]Round and overwrite xarray data in place
我想将 xarray 中的所有值四舍五入到小数点后两位。 我尝试了以下方法: 我这样称呼它: 我希望data_values现在如何使用相同的值但四舍五入到小数点后两位,但这并没有发生。 编辑当我查看数据时,它如下所示: 从data_arr.data = data_arr.data.round(dec ...
[英]Python pandas group by, transform multiple columns with custom conditions
我有 dataframe 包含 500k+ 记录,我想按多列(字符串和日期的数据类型)分组,然后根据自定义条件在每个组中只选择几条记录。 基本上,我需要对记录进行分组(按first_roll_up 、 date 、 granular_timestamp )以检查该组是否包含列top的任何值,如果存在 ...
[英]Overlapping chunks in Xarray dataset for Kernel operations
我尝试使用自定义过滤器在大型卫星图像上运行 9x9 像素 kernel。 一个卫星场景大约有 40 GB,为了将其放入我的 RAM,我使用xarray的选项将我的数据集与dask块。 我的过滤器包括检查 kernel 是否完整(即没有丢失图像边缘的数据)。 在那种情况下,返回 NaN 以防止潜在的偏 ...
[英]How to convert csv to parquet using pandas?
我想将我的 CSV 文件转换为镶木地板文件。 无论chunksize参数如何,我下面的代码都会导致我的 kernel 被杀死。 我不知道文件中的行数 x 列数,但我怀疑我有很多列。 什么是理想的解决方案? 使用 Pandas: 随着时间: ...
[英]Most efficient way of computing pairwise cosine similarity for large DataFrame
我有一个由多列组成的 300.000 行pd.DataFrame ,其中一个是 50 维numpy形状数组(1,50) ,如下所示: 然后,我生成一个具有相同形状的新numpy数组(我们称之为array2 ),并计算dataframe 的每一行与生成的数组之间的余弦相似度。 为此,我目前正在使用sk ...