标签[large-data] - 堆栈内存溢出

表分区与拆分表并执行多个连接到 SQL 服务器？ - Table partitioning vs. splitting the table and execution with multiple connections to SQL Server?

我必须处理一个非常大的表（100MM+ 行）并对它执行一堆分析函数，例如取平均值、总和、百分位数等。我想知道最好的方法是对表进行分区并在一个存储过程（使用一个连接）中执行我的计算，还是我应该按某些列（例如日期）将我的表拆分为较小的表并使用单独的连接执行我的计算到 SQL 服务器？如果答案是第二 ...

读取带有嵌套列表的 JSON 文件 R - Read JSON file with nested lists in R

我有一个很大的 json 数据集，我想将它转换为 R 中的数据框（对不起，如果它可能是一个重复的问题，但其他答案对我没有帮助）我的 Json 文件如下：我想要一个 dataframe 如下：（我没有写上面的完整表格）我已经尝试过以下代码：但每一行如下所示： dput 版本如下：我遇 ...

使用 Elasticsearch 从 Yahoo-Finance 查询服务器收集信息 - Using Elasticsearch to collect information from Yahoo-Finance query server

我一直在尝试使用以下 url 查询 yahoo finance： https://query1.finance.yahoo.com/v1/finance/lookup?formatted=true&lang=en-US&region=US&query=A*&type ...

检查一对一关系 R 脚本 - Checking one-to one relationship R script

我正在寻找一种检查指定标签表中一对一关系的好方法。我有三种类型的标签：主要标签 (P) 和两个次要标签 (A) 和 (B) 在如下表格中： P1 A1 B1 P1 A1 B2 P2 A2 B2 对于每个主标签 (P) 可以存在多种类型的辅助标签，我需要检查它们是否具有一对一的关系。也就是说 ...

汇总/计算多个二进制变量 - Summarizing/counting multiple binary variables

为了这个问题的目的，我的数据集包括 16 列（c1_d，c2_d，...，c16_d）和 364 行（1-364）。这是它的简要样子：请注意，例如第 1 行有五个 1 和 11 个 0。这就是我正在尝试做的事情：基本上计算有多少行有多少值 1 分配给他们（即在分析结束时我想得到像 20 行有零 ...

我在使用 php、mysql 进行搜索时遇到问题 - i have a problem with search using php, mysql

我的数据库（ mysql phpmyadmin）中有 50M 数据，当我使用 php 搜索这些数据时，它需要很多时间，非常慢我怎么解决这个问题？我的代码：谢谢我已经尝试过使用 limit 和 Like 但什么也没发生 ...

索引/匹配/大型多重标准 - Index/Match/Large Multiple Criteria

尝试得出前 3 个成本最高的水果并返回它们的购买日期，不包括苹果和橙子。我想避免使用辅助列。这些公式有问题。不确定您是否可以在另一个公式中包含一个数组（带 IFS 的大数组）。我到目前为止的公式： =INDEX(A:A,MATCH(LARGE(IFS(B:B,"<>Apple", ...

Duckdb_read_csv 在 R 中努力自动检测列数据类型 - Duckdb_read_csv struggling with with auto detecting column data types in R

我有一些非常大的 CSV 文件（~183mio.8 列行），我想使用 R 加载到数据库中。我为此使用 duckdb，它内置 function duckdb_read_csv，它应该自动检测数据类型每一列。如果我输入以下代码：它会产生此错误：错误：rapi_execute：运行查询失败错误：无效 ...

在 pandas dataframe 中加入 coulmn 值的最快方法？ - Fastest way to join coulmn values in pandas dataframe?

问题：给定一个大型数据集（300 万行 x 6 列），根据掩码为真的行，在单个 pandas 数据框中连接列值的最快方法是什么？我目前的解决方案： ...

替换超大数据文件中字符的最快方法 - Fastest way to replace characters in a very large data file

我有一个非常大的文件（19M 行）并且需要清理数据。我使用的是 windows 11 机器。数据正在加载到 SQL 服务器 19。我目前正在使用 perl 脚本删除双引号之间的任何逗号。我将在下面发布我的脚本。这需要很长时间才能运行。我觉得 powershell 会更快，但我似乎无法让它运 ...

Python 多处理 - 共享大数据集 - Python multiprocessing - sharing large dataset

我正在尝试加速受 CPU 限制的 Python 脚本（在 Windows11 上）。 Python 中的威胁似乎没有在不同的 cpu（核心）上运行，所以我唯一的选择是多处理。我有一个很大的字典数据结构（从文件加载后占用空间为 11GB memory），我正在检查计算值是否在该字典中。计算的输入 ...

Neo4J 非常大的管理导入，RAM 有限 - Neo4J Very Large Admin Import with limited RAM

我正在为我一直从事的项目将几 TB 的 CSV 数据导入 Neo4J。我有足够的快速存储估计 6.6TiB，但是机器只有 memory 的 32GB，导入工具建议 203GB 来完成导入。当我运行导入时，我看到以下内容（我假设它因为内存不足而退出）。有什么办法可以用我拥有的有限数量的 memo ...

如何有效地过滤一个大的 python 列表？ - How to efficiently filter a large python list?

我有一个相对较大的数组，称为allListings并想过滤掉allListings[:][14] == listingID的所有行。这是我正在使用的代码： tempRows = list(filter(lambda x: x[14] == listingID, allListings)) 对于所 ...

Excel PowerQuery 与数据库的实时连接？ - Live Connection to Database for Excel PowerQuery?

我目前在一个表中有大约 1000 万行、约 50 列，我将其打包并共享为 pivot。但是，这也意味着下载 csv 需要大约 30 分钟到 1 小时，或者需要更长的时间才能将 Powerquery ODBC 直接连接到 Redshift。到目前为止，我发现的最佳解决方案是使用 Python - ...

如何检测大型数据集中的多元异常值？ - How to detect multivariate outliers within large dataset?

如何检测具有 50 多个变量的大数据中的多元异常值。我需要 plot 所有变量还是我必须根据自变量和因变量对它们进行分组，或者我需要一个算法吗？ ...

在.csv 中读取和扩充（复制样本并更改某些值）大型数据集的最有效方法是什么 - What is the most efficient way to read and augment (copy samples and change some values) large dataset in .csv

目前，我已经设法解决了这个问题，但它比我需要的要慢。大约需要：500k 个样本需要 1 小时，整个数据集是 ~100M 样本，100M 样本需要 ~200 小时。硬件/软件规格：RAM 8GB，Windows 11 64bit，Python 3.8.8 问题：我在.csv (~13GB) 中有 ...

python，在大 3d numpy arrays 上计算 - python, calculation on large 3d numpy arrays

我有一个numPy 3d阵列（目前是200x200x200），以后打算用更大的arrays0~500x 对于每个单元格，我想计算其邻居的平均值。我使用循环和 NumPy 实现了它，但是这需要很多时间。我认为这是因为我写得效率不高：有什么方法可以更有效地编写它吗？我项目的第一步是在二维 arr ...

替换大 dataframe 中的列值 - Replace column values in a large dataframe

我有一个 dataframe 具有类似的 id 和时空数据，如下所示：car_id lat long xxx 32 150 xxx 33 160 yyy 20 140 yyy 22 140 zzz 33 70 zzz ...

Terra function intersect() 和 crop() 在大型 SpatVector 上返回 R 中的大型列表 - Terra function intersect() and crop() on large SpatVector returns Large list in R

我有一个我认为在 ArcGIS 上相当简单的工作流程，我正在尝试使用r/terra自动化来为同一流程运行不同的场景。我是一个非常高级的 ArcMap 用户，并且精通 R 和数据操作，但对 Terra 来说 100% 是新手，这让我困了好几天！背景：我有一个（多部分）多边形的大型数据集：澳大利亚约 ...

如何使用 ndimage.map_coordinates 设置插值问题？ - How to set up the interpolation problem using ndimage.map_coordinates?

赏金将在 5 天后到期。此问题的答案有资格获得+50声望赏金。 Ash想引起更多人对这个问题的关注。根据scipy.ndimage.map_coordinates的文档，坐标数组用于为 output 中的每个点查找输入中的对应坐标。这些坐标处的输入值由请求顺序的样条插值确定。 outp ...