cost 121 ms
如何旋转 Pyspark 数据框

我有以下挑战:我有一个名为 hashtags_users_grouped 的数据框,它具有以下结构: 在每一行中,我们都会找到一些值,这些值告诉我某个用户何时提到某个主题标签以及他这样做了多少次。 在这个例子中,用户 1 提到了话题标签 123 1 次,提到了 3 次 245,而用户 2 只提到 ...

2021-11-26 20:07:09 1 17
Pandas:如何使用一列中的一个值(值重复)作为另一列的标题,多次使用通配符

我有一个来自半结构化 csv 的具有多个输入的数据,我正在尝试使用一组列(超过 500 个)中的一个(第一个)值作为包含类似标题的另一组列(另外 500 行)的标题) 阅读后我得到了这样的东西 包含值的标题以最多 3 位数字 _# 到 _###(准确地说是超过 500)结束。 带有关于值的描述 ...

2021-11-26 19:51:16 1 22
将列表数组转换为数据框

我有一个带有标题和值的列表数组,我想将它转换成一个数据框,所以 3 列和行,但到目前为止我遇到了麻烦,附加的是列表数组的样子 ...

2021-11-26 18:35:15 1 15
提取 Pandas 中每一列的平均值

我有一个 dataframe1 显示观众的评分和每部电影的类型: 1 表示动作片表示这是一部动作片,0 表示不是。 我提取了单一类型的平均评分。 举个例子,我是这样做的: 其中显示为 4。但现在我必须提取所有类型的平均评分,应该如下所示: 关于如何接近的任何建议? ...

2021-11-26 17:49:30 3 21
Pandas groups() 方法不返回组名

创建了一个熊猫数据框并尝试使用列名进行分组。 分组确实发生了,但由于某种原因,当我尝试使用 groups() 方法获取它时,它没有给出组名。 它返回“TypeError:'PrettyDict' 对象不可调用”。 这种方法以前可以使用并用于返回组名称,但由于某种原因它不再起作用了。 我错过了什么吗。 ...

2021-11-26 17:47:25 0 8
将函数应用于 Pandas 数据帧 (lambda) 中的所有行

我有以下函数来获取行的最后一个非零值的列名 使用以下代码示例 我想知道如何将此函数应用于数据框中的所有行,并将结果放入df的新列中 我正在考虑遍历所有行(这可能不是一个好方法)或将 lambdas 与 apply 函数一起使用。 但是,我没有成功采用最后一种方法。 有什么帮助吗? ...

2021-11-26 17:30:32 2 21
Pandas:一些 MultiIndex 值在读取 Excel 工作表时显示为 NaN

将 Excel 电子表格读入 Pandas DataFrame 时,Pandas 似乎以一种奇怪的方式处理合并的单元格。 在大多数情况下,它会根据需要解释合并的单元格,除了每列的第一个合并单元格之外,它会在不应该生成 NaN 值的地方生成 NaN 值。 我加载了三张纸,但每张纸的行为都是相同的, ...

2021-11-26 17:11:50 0 13
Python通过部分匹配使用pandas过滤Excel数据

我正在尝试使用 Pandas 过滤 excel 电子表格并将过滤后的数据保存到新工作表中。 目前我有这个按预期工作 问题是此代码在标题为“CodedCorporation”的列中查找单词“Lucy”的完全匹配项。 我需要的是能够根据部分匹配而不是完全匹配进行过滤。 所以我试过这个 但这会引 ...

2021-11-26 16:47:10 2 18
在 Pandas Python 中分离文本和数字

如果尚未用空格 (" ") 分隔,如何在 Panda Python 中将文本与数字分开? 在我的数据框 df 中,我有一列 0.3314QSF。 我想将它分成两列,分别包含 0.3314 和 QSF,分别位于我的数据框中的两个不同列中。 数据框由数千行组成,此规则应该适用于所有行。 谢谢 ...

2021-11-26 16:43:29 1 13
根据另一个数据帧中的值将数据帧拆分为 6 个数据帧

我正在尝试根据另一个数据帧中的值将数据帧的行拆分为 6 个列表。 在 python 中使用 pandas 包。 trainX = 形状为 (7352, 561) 的数据框和 trainY = 形状为 (7351, 1) 的数据框 我想要的是,根据 trainY 中相应行的值,将 trainX 的每 ...

2021-11-26 16:11:18 1 16
创建具有从嵌套 for 循环生成的唯一组合的数据框

我有一个这样的数据框: 我想要做的是在这个数据集中运行一个因子 ANOVA,因子是“Sub”。 我想遍历每个功能并遍历每个 ID。 基本上,我正在计算一个 ID 中每个特征的方差,在“Sub”之间。 我已经生成了下面的代码,但它似乎不起作用。 我最终得到了 big_data,它是一个包含 ...

2021-11-26 15:40:28 1 19
python:从pandas中的数据帧生成的列表比数据帧列长得多

这段代码应该根据它们在“cat”列表中的位置生成一个名为“cat_list”的列表,其中包含取自 df['a'] 的值。 如果 df['a'] 包含不在 'cat' 列表中的值,则 0 应附加到 'cat_list'。 'cat_list' 的长度应该是 6,但我不确定为什么它的长度是 18。 ...

2021-11-26 15:22:17 2 29
如何在没有迭代的情况下编写 SQL 查询

我有以下挑战:我有一个名为hashtags_users_grouped的表,它具有以下结构: 在每一行中,我们都会找到一些值,这些值告诉我某个用户何时提到某个主题标签以及他这样做了多少次。 在这个例子中,用户 1 提到了话题标签 123 1 次,提到了 3 次 245,而用户 2 只提到了话题标 ...

2021-11-26 15:10:52 1 38
如何有效地连接数千个 Pandas DataFrame?

我有一个文件夹/data/csvs ,其中包含 ~7000 个 CSV 文件,每个文件有 ~600 行。 每个 CSV 都有一个名称,其中包含需要保留的时间戳,例如/data/csvs/261121.csv 、 /data/csvs/261122.csv ( 261121是今天的日期 26/11/2 ...

2021-11-26 14:46:03 1 20
每次合并具有不同列名的熊猫数据框列表

我有一个数据框列表,其中包含要加入的相应列名,例如: 我已经看到使用 Python 中的 reduce 函数的答案。 如何合并合并列在reduce 函数内的每个连接处都发生变化的事实? 先感谢您。 ...

2021-11-26 14:41:28 1 23

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM