[英]Grouping pandas dataframe by two columns without summarizing it
我在美国不同的州有一个 pandas Dataframe。 我想按年份和state这两列分组,以便统计测试一些事情,例如死因、新生儿等,还有 plot 它。 我只能提出groupby
pandas function ,最后我必须指定一个统计摘要,例如:
import pandas as pd
df = pd.read_csv(path + 'csvfile.csv')
grouped_df = df.groupby(['Year', 'State']).mean()
但是,我只想按年份和state单独分组,但是使用groupby
这样做我得到了:
import pandas as pd
df = pd.read_csv(path + 'csvfile.csv')
grouped_df = df.groupby(['Year', 'State'])
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000025720134688>
我怎样才能做到这一点?
第一个groupby
像iterator
一样简化,所以指定之后的内容很重要 - 聚合 function,自定义 function..?
不确定group by the year and state alone
是什么意思,如果需要按 2 列使用MultiIndex
,请使用:
grouped_df = df.set_index(['Year', 'State'])
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.