cost 67 ms
有没有比 Pandas apply 更好的方法? - Is there a better way than Pandas apply?

我试图找到从每个点到最近的海岸线的距离。 我有两个数据。 每个点的纬度、经度信息关于海岸线例如)sample_Data(点数据)= gdf = 这段代码花费的时间比我想象的要长,所以我正在寻找更好的方法。 如果我交叉连接两个数据帧,速度会提高吗? 执行上述代码大约需要 6 个小时。 ...

提高 df.rolling(...).apply(...) 对大型数据帧的性能 - Increase performance of df.rolling(...).apply(...) for large dataframes

此代码的执行时间太长。 我的数据框形状是 (500, 10000)。 我用最后 255 个日期值对每个日期进行计算。 我的函数看起来像: 我尝试使用 swifter 但性能是一样的: 我也尝试过 Dask,但我认为我不太了解它,因为性能并没有好多少: 我没有设法将执行与分区并行化。 如何使用 das ...

Swifter 库如何为对象引入新属性? - How Does the Swifter Library Introduce a New Attribute to Objects?

最近,我发现了一个名为swifter的有用库,用于加快 python 中 pandas 系列的处理速度。 我确信它在后台做了很多矢量化处理和优化,但我很好奇它是如何通过导入来为 pandas 系列或数据框 object 引入新属性的。 拿这个最小的代码。 这看起来真的很神奇,因为我认为 impor ...

如何加快(并行化)分组的逐行滚动平均值计算? - How to speed up (parallelize) a grouped row-wise rolling mean calculation?

我正在计算一个大型数据集的分组逐行移动平均值。 但是,该过程在单个线程上花费的时间太长。 我怎样才能有效地加快这个过程? 请在下面找到一个可重现的示例: 我有一个函数可以返回数据集的(逐行)平滑版本。 非常感谢 ...

Python 脚本静默停止 - Python Script Stops Silently

我正在运行 Python 个脚本作为子进程,使用 Nodejs 生成。 在本地运行时,或者本地使用Docker/Kube.netes安装时,按预期运行,完成了脚本中的所有功能。 在 Kube.netes Azure 中运行容器时,脚本在不到 1 小时的时间内静默停止/失败,没有记录任何异常或错误。 ...

Pandas iterrows 太慢了,我该如何矢量化这段代码? - Pandas iterrows too slow, how can I vectorize this code?

我是一名 Jr. 数据科学家,我正在尝试解决一个对有经验的程序员来说可能很简单的问题。 我正在 GCP 上处理大数据,我需要优化我的代码。 我们的 DataFrame 具有以下模式: 在 DataFrame 上使用 iterrows 太慢了。 我一直在研究替代方案,我知道: 我可以使用 ...

Pandas-Dataframe Parallel Apply (Swifter, TQDM::process_map) 冻结? 被叫时 - Pandas-Dataframe Parallel Apply (Swifter, TQDM::process_map) Freezes? when called

我有一个 dataframe 有大约 15k 的音频文件路径,我想在这些文件上执行操作(人为地添加噪音)。 一般来说,整个事情都有效,但即使记录较少(16)条记录也需要很长时间。 问题不在于 function 的执行时间,而是所有初始化之前的时间。start = time.time() data_a ...

熊猫在轴 1 上更快速地应用不会返回 - Pandas apply with swifter on axis 1 doesn't return

我尝试将以下代码(最小示例)应用于我的 200 万行 DataFrame,但由于某种原因 .apply 向函数返回多于一行并破坏我的代码。 我不确定发生了什么变化,但代码之前确实运行过。 有没有人有想法或类似的问题? 重要的是没有更快,一切正常,但由于行数太慢。 ...

迭代 pandas 中唯一值的更快方法? - Quicker way to iterate over unique values in pandas?

我有一些 pandas 代码,我试图在一个大数据集上运行,尽管使用了应用程序,但它看起来本质上是在迭代和缓慢运行……欢迎提出建议! 我正在尝试对我的数据进行分组。 每行都有一个非唯一的事件 ID,每个事件 ID 可以包含多个事件。 如果这些事件中的任何一个是特定类型,我希望具有该 ID 的每一行都 ...

无法使用 swifter 并行化 pandas 应用 - Not able to parallelize pandas apply using swifter

我正在尝试通过将每个单词传递给时间复杂的自定义过程来更正文档中的 OCR 解析单词。 该过程是我的自定义业务功能,它确实查看了单词的各种语义。 我正在尝试使用 swifter 来加快进程。 我有一个 16 核处理器,但我没有看到所有内核都在使用,因为我看到只有 1 个内核正在消耗 100%,其余 1 ...

展平包含字典列表的熊猫数据框列 - Flatten pandas dataframe column containing list of dictionaries

我正在展平一个数据框,其中该列包含一个字典列表。 我已经为它编写了代码。 但是,仅处理 5000 行大约需要 25 秒,这是很多。 这是示例数据集: 这是解析后的数据框: 结果包含“键”作为列,但是,如果字典中有“set_timestamp_micros”键,则该列的语法为 {key}. ...

Swifter:矢量化和非矢量化函数的区别是什么? - Swifter: what is the difference vectorized and non-vectorized function?

我需要了解熊猫速度优化。 对我的问题非常有效的图书馆更快。 但我不了解文档,尤其是矢量化函数。 我的假设是更快的输入只接受向量输入,而不是数据帧。 这是错的吗? 在文档中,这是矢量化函数: 这是非矢量化函数: 有什么不同? 你能告诉我矢量化和非矢量化函数有什么不同吗? 如果您以前使用过 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM