cost 25 ms
Pandas 加载和聚合大数据

我有一个将近 4~6M 行的数据框,需要大量内存才能加载。 如果我只是一个一个地读取和处理数据就可以了,但问题是我需要对数据进行聚合。 (如总和或平均值) 也许我可以为我的工人分配更多的记忆,但我不知道未来的数据会有多大。 所以我的第一个想法是从数据库中取出部分数据,并为每个块聚合数据,然后组 ...

2022-07-01 09:14:19 0 29
Python-用特定格式识别值+替换这些值中的元素之一

我想识别具有特定格式的列中的值,然后将其中一个元素“x”替换为“0”。 例如,格式为“>=3.1.x”或“>=9.5.x”。 所需的输出是“>=3.1.0”或“>=9.5.0”。 如何将 x 替换为 0? 下面是我开始的代码: ...

2022-06-30 20:40:21 1 26
如何为以下要求找到正确的数据设计和正确的工具/数据库/查询

我有一种要求,但无法弄清楚如何解决它。 我有以下格式的数据集 或者如果我输入列表格式: 现在我的用例是对多行执行比较、聚合和查询,例如 id=123 的最后 2 行之间的时间差 id=123&GradeA 的最后 2 行之间的时间差 第一个、第三个、第五个和最后一个之间的 ...

2022-06-23 18:46:56 1 45
"如果我进行批处理,Spark 与 Mapreduce 相比究竟有什么好处?"

我知道 Spark 具有对迭代作业非常有用的内存功能。 但是如果我的要求是传统的批处理 ETL。 Spark 会给我带来什么好处吗? 请提供与此相关的所有指示,这将对我有很大帮助。 如果没有迭代工作并且它是一个批处理过程,Spark 如何帮助我?<\/li> 是否存在 MapRe ...

2022-02-07 09:56:18 0 4
广播连接如何在 Spark 中处理超过 2 个表?

所有文章都只讨论加入 2 个表。 如果我的要求是我想加入 4 张桌子和 情景 a) 4 张桌子中有 3 张小,一张大 情景 b) 4 张桌子中有 2 张小,两张大 Spark 将如何执行这些操作? 它会在场景 a 中使用广播连接吗? 在场景 b 中将使用什么? 为什么? ...

2022-02-07 03:17:26 0 4
DynamoDB 表设计建议

需要指导来设计 DynamoDB 表。 以下是我的示例数据。 财务类型 型号名称 型号代码 型号年份 更多属性... 租 阿瓦隆 TA1 2021 ..... ...

2022-02-07 01:49:07 1 20
"Delta 上的 Upserts 只是重复数据?"

我对数据块上的 Delta 和 Lakehouse 还很陌生。 基于以下操作,我有一些问题: 我导入了一些镶木地板文件 将它们转换为 delta(创建 1 个 snappy.parquet 文件) 删除一个随机行(创建 1 个新 snappy.parquet 文件)。 我检查了两个 ...

2022-02-06 19:14:43 1 30
"从两个数据集中提取数据"

请问从这两个数据库中提取数据的最佳方法是什么,我需要正面或负面的反馈,解释原因 我有两个数据库: A、庞大的数据集(数百万条记录)<\/li> D、小数据集(不到一千条记录)<\/li><\/ul> 第一次提取<\/strong> ...

2022-02-05 13:01:30 0 19
"Spark中的Sort Merge Join中的键何时不可排序?"

当我阅读有关 Sort Merge Join 的文章时,它说这是在 Broadcast join 之后 Spark 中最受欢迎的一个,但前提是加入键是可排序的。 我的问题是什么时候加入键是不可排序的? 任何数据类型都可以排序。 你能帮我理解一个键可能无法排序的场景吗?" ...

2022-02-05 04:51:03 1 11
"Spark中笛卡尔连接和BroadcastNestedLoop连接的区别"

我浏览了几篇文章,但最终无法完全弄清楚它们之间的确切区别。 他们都以交叉产品的方式扫描每个记录的表。 他们说在 BroadcastNestedLoop 中,较小的表被广播到所有工作节点。 在笛卡尔连接的情况下,这种洗牌是如何发生的? 您能否解释一下 Spark 中的两种加入策略之间究竟有什么不同。" ...

2022-02-05 02:50:19 1 19
Spark Repartition 创建超过 128 MB 的分区

假设我有一个 1.2 GB 的文件,因此考虑到 128 MB 的块大小,它将创建 10 个分区。 现在,如果我将它重新分区(或合并)为 4 个分区,这意味着每个分区肯定会超过 128 MB。 在这种情况下,每个分区必须保存 320 MB 的数据,但块大小为 128 MB。 我在这里有点困惑。 这怎么 ...

2022-02-04 02:23:00 1 16
我应该为我的面向对象的 Web 应用程序切换到 NoSQL 吗?

我正在尝试创建一个 Web 应用程序,允许用户使用类、对象和属性来贡献或组织数据。 我已经在 SQL 中为它创建了一个数据模型,但我想知道 NoSQL 数据库是否更适合这个。 该项目涉及允许用户指定他们希望用户提供的属性类型:文本、视频、图片、音频、数字、条形码、邮政编码等。可能有数千种属性/数据类 ...

2022-02-03 20:51:06 0 5

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM