繁体   English   中英

Python Pandas Groupby无法正常工作

[英]Python Pandas Groupby not working as expected

我有一个像下面这样的数据框:

               ip              domain
0  46.101.214.145  cnwkabrnyld1c0[.]com
1  46.101.214.145        anfj63m[.]com
2  46.101.214.145       anf3xnem[.]com
3   69.195.129.70  cnwkabrnyld1c0[.]com
4   69.195.129.70        anfj63ms[.]com

我正在尝试对“ ip”列进行分组,以便将重复项汇总到同一行。

所需的输出:

               ip              domain
0  46.101.214.145  cnwkabrnyld1c0[.]com | anfj63m[.]com | anf3xnem[.]com
3   69.195.129.70  cnwkabrnyld1c0[.]com
4   69.195.129.70        anfj63ms[.]com

根据我正在阅读的无数SOF和Panda文档,这似乎很简单。

这是我的代码:

pDNSPanda = pd.read_csv('/tmp/pDNSCSV.csv', names=['ip', 'domain'])
g = pDNSPanda.groupby("ip").agg('|'.join)

这是我实际上得到的:

                 domain
ip
0.0.0.0       ip|domain
1.1.1.200     ip|domain
1.148.56.163  ip|domain
1.167.81.129  ip|domain
1.193.28.230  ip|domain

编辑:

建议我针对上述数据集尝试自己的代码。

test.csv
46.101.214.145  cnwkabrnyld1c0[.]com
46.101.214.145        anfj63m[.]com
46.101.214.145       anf3xnem[.]com
69.195.129.70  cnwkabrnyld1c0[.]com
69.195.129.70        anfj63ms[.]com

>>> import pandas as pd
>>> p = pd.read_csv('/tmp/test.csv', names=['ip', 'domain'])
>>> g = p.groupby("ip").agg("|".join)
>>> print g
                                         domain
ip
46.101.214.145        anfj63m[.]com   ip|domain
46.101.214.145       anf3xnem[.]com   ip|domain
46.101.214.145  cnwkabrnyld1c0[.]com  ip|domain
69.195.129.70        anfj63ms[.]comp|domain
69.195.129.70  cnwkabrnyld1c0[.]com   ip|domain

您需要在groupbyagg命令之间使用domain 如果需要,在管道连接周围添加间距,例如' | '.join(...) ' | '.join(...)

pDNSPanda.groupby("ip").domain.agg('|'.join)

ip
46.101.214.145    cnwkabrnyld1c0[.]com|anfj63m[.]com|anf3xnem[.]com
69.195.129.70                   cnwkabrnyld1c0[.]com|anfj63ms[.]com
Name: domain, dtype: object

如果您的域中有浮点数,则最好将它们转换为字符串。

df['domain'] = df.domain.astype(str)

我认为ip列中的第一个值像我的第一行和第二行一样是唯一的-那么在groupby之后您只能在列domain得到一个值:

print pDNSPanda
               ip                domain
0         0.0.0.0             ip|domain
1       1.1.1.200             ip|domain
2  46.101.214.145  cnwkabrnyld1c0[.]com
3  46.101.214.145         anfj63m[.]com
4  46.101.214.145        anf3xnem[.]com
5   69.195.129.70  cnwkabrnyld1c0[.]com
6   69.195.129.70        anfj63ms[.]com


g = pDNSPanda.groupby("ip").agg('|'.join)
print g
                                                           domain
ip                                                               
0.0.0.0                                                 ip|domain
1.1.1.200                                               ip|domain
46.101.214.145  cnwkabrnyld1c0[.]com|anfj63m[.]com|anf3xnem[.]com
69.195.129.70                 cnwkabrnyld1c0[.]com|anfj63ms[.]com

但是我认为最好将groupby与聚合列一起使用,正如Alexander在他的回答中提到的那样。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM