cost 111 ms
表分区与拆分表并执行多个连接到 SQL 服务器? - Table partitioning vs. splitting the table and execution with multiple connections to SQL Server?

我必须处理一个非常大的表(100MM+ 行)并对它执行一堆分析函数,例如取平均值、总和、百分位数等。 我想知道最好的方法是对表进行分区并在一个存储过程(使用一个连接)中执行我的计算,还是我应该按某些列(例如日期)将我的表拆分为较小的表并使用单独的连接执行我的计算到 SQL 服务器? 如果答案是第二 ...

读取带有嵌套列表的 JSON 文件 R - Read JSON file with nested lists in R

我有一个很大的 json 数据集,我想将它转换为 R 中的数据框 (对不起,如果它可能是一个重复的问题,但其他答案对我没有帮助)我的 Json 文件如下: 我想要一个 dataframe 如下: (我没有写上面的完整表格) 我已经尝试过以下代码: 但每一行如下所示: dput 版本如下: 我遇 ...

检查一对一关系 R 脚本 - Checking one-to one relationship R script

我正在寻找一种检查指定标签表中一对一关系的好方法。 我有三种类型的标签:主要标签 (P) 和两个次要标签 (A) 和 (B) 在如下表格中: P1 A1 B1 P1 A1 B2 P2 A2 B2 对于每个主标签 (P) 可以存在多种类型的辅助标签,我需要检查它们是否具有一对一的关系。 也就是说 ...

汇总/计算多个二进制变量 - Summarizing/counting multiple binary variables

为了这个问题的目的,我的数据集包括 16 列(c1_d,c2_d,...,c16_d)和 364 行(1-364)。 这是它的简要样子: 请注意,例如第 1 行有五个 1 和 11 个 0。 这就是我正在尝试做的事情:基本上计算有多少行有多少值 1 分配给他们(即在分析结束时我想得到像 20 行有零 ...

Duckdb_read_csv 在 R 中努力自动检测列数据类型 - Duckdb_read_csv struggling with with auto detecting column data types in R

我有一些非常大的 CSV 文件(~183mio.8 列行),我想使用 R 加载到数据库中。我为此使用 duckdb,它内置 function duckdb_read_csv,它应该自动检测数据类型每一列。 如果我输入以下代码: 它会产生此错误: 错误:rapi_execute:运行查询失败错误:无效 ...

替换超大数据文件中字符的最快方法 - Fastest way to replace characters in a very large data file

我有一个非常大的文件(19M 行)并且需要清理数据。 我使用的是 windows 11 机器。 数据正在加载到 SQL 服务器 19。我目前正在使用 perl 脚本删除双引号之间的任何逗号。 我将在下面发布我的脚本。 这需要很长时间才能运行。 我觉得 powershell 会更快,但我似乎无法让它运 ...

Python 多处理 - 共享大数据集 - Python multiprocessing - sharing large dataset

我正在尝试加速受 CPU 限制的 Python 脚本(在 Windows11 上)。 Python 中的威胁似乎没有在不同的 cpu(核心)上运行,所以我唯一的选择是多处理。 我有一个很大的字典数据结构(从文件加载后占用空间为 11GB memory),我正在检查计算值是否在该字典中。 计算的输入 ...

Neo4J 非常大的管理导入,RAM 有限 - Neo4J Very Large Admin Import with limited RAM

我正在为我一直从事的项目将几 TB 的 CSV 数据导入 Neo4J。 我有足够的快速存储估计 6.6TiB,但是机器只有 memory 的 32GB,导入工具建议 203GB 来完成导入。 当我运行导入时,我看到以下内容(我假设它因为内存不足而退出)。 有什么办法可以用我拥有的有限数量的 memo ...

Excel PowerQuery 与数据库的实时连接? - Live Connection to Database for Excel PowerQuery?

我目前在一个表中有大约 1000 万行、约 50 列,我将其打包并共享为 pivot。 但是,这也意味着下载 csv 需要大约 30 分钟到 1 小时,或者需要更长的时间才能将 Powerquery ODBC 直接连接到 Redshift。 到目前为止,我发现的最佳解决方案是使用 Python - ...

在.csv 中读取和扩充(复制样本并更改某些值)大型数据集的最有效方法是什么 - What is the most efficient way to read and augment (copy samples and change some values) large dataset in .csv

目前,我已经设法解决了这个问题,但它比我需要的要慢。 大约需要:500k 个样本需要 1 小时,整个数据集是 ~100M 样本,100M 样本需要 ~200 小时。 硬件/软件规格:RAM 8GB,Windows 11 64bit,Python 3.8.8 问题: 我在.csv (~13GB) 中有 ...

python,在大 3d numpy arrays 上计算 - python, calculation on large 3d numpy arrays

我有一个numPy 3d阵列(目前是200x200x200),以后打算用更大的arrays0~500x 对于每个单元格,我想计算其邻居的平均值。 我使用循环和 NumPy 实现了它,但是这需要很多时间。 我认为这是因为我写得效率不高: 有什么方法可以更有效地编写它吗? 我项目的第一步是在二维 arr ...

Terra function intersect() 和 crop() 在大型 SpatVector 上返回 R 中的大型列表 - Terra function intersect() and crop() on large SpatVector returns Large list in R

我有一个我认为在 ArcGIS 上相当简单的工作流程,我正在尝试使用r/terra自动化来为同一流程运行不同的场景。 我是一个非常高级的 ArcMap 用户,并且精通 R 和数据操作,但对 Terra 来说 100% 是新手,这让我困了好几天! 背景:我有一个(多部分)多边形的大型数据集:澳大利亚约 ...

如何使用 ndimage.map_coordinates 设置插值问题? - How to set up the interpolation problem using ndimage.map_coordinates?

赏金将在 5 天后到期。 此问题的答案有资格获得+50声望赏金。 Ash想引起更多人对这个问题的关注。 根据scipy.ndimage.map_coordinates的文档, 坐标数组用于为 output 中的每个点查找输入中的对应坐标。 这些坐标处的输入值由请求顺序的样条插值确定。 outp ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM