标签[pandas]

Pandas是用于数据处理和分析的Python库,例如,通常在统计,实验科学结果,计量经济学或金融学中常见的数据框,多维时间序列和横截面数据集。 Pandas是Python中主要的数据科学库之一。

0
2回复
21

Pandas:提取所有行>0的列

使用熊猫=1.1.5。 我只想提取所有行都大于 0 的列。 谢谢 df1 期望的结果,因为第一行的收入为 0,排除它
0
0回复
12

无法从数据帧切片运行预测,卡住了应该是2d的1d数组

我有一个训练有素的模型,它训练的数据框每天都会更新,其中包含所有功能的新样本。 我已经尝试将包含该样本的切片保存到要预测的变量中,但出现错误: 代码: 这是实际的切片: 使用 x.reshape(1, -1) 进行整形会返回相同的一维数组的相同错误。 如何确保二维数组到达模型?
-1
0回复
09

如何将报废的文本格式的json数据集保存到本地机器中,以及如何将文件读入PandasDataFrame?

代码如下所示:我想用它进行分析 response = requests.request("GET", url, headers=headers, params=querystring) 打印(响应。文本) {"@type":"imdb.api.title.ratings","id":"/title
0
2回复
32

如何对熊猫数据框进行分组并对另一列中的值求和

我有一个包含 3 列(CHAR、VALUE 和 WEIGHT)的 Pandas 数据框。 CHAR 列包含重复值,我需要将这些值分组 ['A'、'A'、'A'、'B'、'B'、'C']。 VALUE 列对于每个唯一的 CHAR [10, 10, 10, 15, 15, 20] 都有一个唯一的
1
1回复
18

基于列表展开DataFrame并添加索引

我有一个如下所示的数据框: 我的目标是为列表中的每个项目扩展数据框,并添加一个索引列来引用源列表中的位置。 做这个的最好方式是什么?
0
1回复
09

如何将熊猫数据框的最后一列设置为某些列的总和?

我在这里阅读这个主题由于我不明白的原因,pandas 不会读取 Excel 最后一列中公式的值。 Excel 中的 W 列只是每行 D 到 V 列的总和。 我需要将此 Excel 保存为 .csv 以导入 MySQL。 所以我使用熊猫。 但是我在最后一列中什么也没得到,所以我想,修改数据框然后将其
0
1回复
19

按两列分组并获得第三列的最大值

我有一个像下面这样的 df: 我想要做的是分组日期和标签并获取每天最大计数的标签。 我执行以下操作并得到以下结果: 但是,我想要做的还包括对结果具有最大计数的标签。 基本上,我想要这样的东西:
-3
1回复
36

function()缺少4个必需的位置参数

问题显示在第 90 行。 我认为主要问题在于数据框。 因此,在从function计算值后,我返回一个数据框。 该函数在 for 循环中用于生成不同的行,如下所示。 代表情节:我一直在尝试一些线索,但仍然不起作用
0
0回复
19

分配列以根据每组熊猫的最后N行和日期对列求和?

注意:每组, lowest列的lowest不重复。 目标 为每个组分配v2列以根据最后 4 行对v1值求和,起始行是lowest列的lowest ,结束行是最后一行。 尝试 我知道使用变换,滚动像df['v2']=df.groupby('hy_code')['v1'].transform(lamb
0
1回复
12

将代码和不一致描述的2列数据框转换为每个唯一代码的所有可能描述的嵌套列表

为这篇文章标题的措辞不佳而道歉,我不确定如何最好地简化对我正在尝试做的事情的解释。 我有一个数据帧输出,其中标记了行之间描述列不一致的会计代码。 例如: 我正在尝试使用此数据框将每个唯一代码映射到 tkinter 标签,而与该代码匹配的每个描述都映射到组合框下拉列表。 例如,我在下一列中有一个标记为
0
0回复
28

根据前两行计算股票价值

所以我一整天都被困在这个问题上。 我想根据前一行计算当前股票权重,但它比我想象的更具挑战性。 我的数据如下 重量 巴兰 日期 500 50 2021-10-15 0 -30 20
2
1回复
24

使用csv数据标记matplotlib中的数据点[重复]

这个问题在这里已经有了答案: 每个数据点都有不同文本的 Matplotlib 散点图9 个回答 从 Pandas DataFrame 绘图时注释数据点(4 个答案)
0
2回复
29

如何根据PythonPandas中第二个数据帧中的几列合并两个数据帧?

我在 Python 中有两个 Pandas 数据框,如下所示: df1 df2 df1 的行数比 df2 多 两个数据帧中的值类型都是 int 我需要做一些类似 df1 LEFT JOIN df2 的操作,并使用来自 df1 的“ID”和来自 df2 的“ID1”、“ID2”、“ID3”将
0
1回复
33

MatplotlibPlot函数返回同一图中的线,

当前图仅生成一条线,但我希望同一图中的多条线遍历数据框df2变量现在我被卡住了,因为函数的返回是数据框,我如何将它存储在'plot3'变量中? 如何在相同的图中绘制wp(i) 、 tempp(i) {5 组日期} 等。 代表情节:
0
1回复
32

如何根据列名、另一列中的值和索引范围替换数据框中列中的值?

我有一个具有这些特征的数据框(索引是浮点值): 以及具有这些值的偏移量列表(它们也是浮点数): 我需要在 A、B 和 C 列上遍历我的数据框,从 D 列中选择分类值,根据与我的列表中的偏移量相关的索引,将 A、B 和 C 列中的最后一个值替换为 nan,从而导致像这样的数据框: offset 的值
0
1回复
41

根据1列的变化获取数据帧列表,同时保持2列的唯一性

我正在寻找解决提出选择性组合的问题的方法。 为了说明我正在尝试做什么,假设我在下面有 2 个数据框: 我想要做的是创建一个包含 4 个数据框的列表,如下所示: 问题是在尝试了多种 for 循环和列表推导式之后,我找不到一种方法来做到这一点,理想情况下,我可以找到一种编程方式来创建基于有选择地查看 1
2
2回复
31

熊猫填写日期

我有以下数据框,日期对应于季度期间和对应于关联id分组的金额(以及此处未显示的其他附加列为简化)。 每个 id 的日期都是唯一的。 我想延长季度从过去设定的开始季度日期开始的时间段,以便每个 id 的季度期间开始并存在于相同的日期。 在此示例中,数据应从2019-12-31开始,如果缺少该行,则应填
0
0回复
07

PythonCongressionalPlotlyTypeError:MultiPolygon类型的对象不是国会选区的JSON可序列化

当我运行此代码时,出现以下错误追溯: 我尝试过的解决方案: 1:我也尝试过根据文档使用 geojson=geometry 和locations=index 2:我已经取出geojson作为参数(因为它包含在df中),并命名locations='congressional district'。
0
1回复
26

如何在Pandas中读取.json文件以将其导出为可读的.csv文件

我通过使用 get 请求附加了一些 json 字符串来创建一个 .json 文件。 我的目标是将附加的 .json 文件转换为可读的 .csv 文件。 .json 文件具有以下格式: 我的尝试 错误代码 我想我收到这个错误是因为“交易”在我的 .json 字符串中复制了两次,因此可能被视为一个字符

1 2 3 4 5 6 7 8 9 10 下一页