![](/img/trans.png)
[英]How to combine two pandas dataframes with different length based on their row values
[英]Python - Pandas combine two dataframes that provide different values
我有两个不同的数据框,有两列,我想合并它们 + 得到它们 B 列的总和。问题是 dataframe 1 有一些数据,我想保留。 我会写一个例子,所以它是有意义的
Dataframe 1
Columns A Column B
House walls,doors,rooms
Animal Legs,nose,eyes
car tires,engine
Dataframe 2
Column A Column B
House windows,kitchen
Bike wheels,bicycle chain
期望的结果
Column A Column B
House walls,doors,rooms,windows,kitchen
Animal Legs,nose,eyes
Car tires,engine
Bike wheels,bicycle chain
合并 function 没有帮助,我尝试使用 pd.concat 然后以某种方式聚合数据,但也没有帮助。 有人知道如何解决它吗?
pd.concat([df1, df2]).groupby("Column A")["Column B"].apply(', '.join).reset_index()
连接数据框后,按 A 列对值进行分组,然后使用apply
将 B 列中的分组字符串连接起来,最后使用reset_index()
恢复 A 列。
编辑:评论扩展
要删除重复项,您可以使用set
数据结构,它只保留您放入其中的每个元素的单个版本。 对于每一行 x,拆分单词,然后将单词列表转换为一个集合:
df4 = df3["Column B"].apply(lambda x: set(x.split(", "))).reset_index()
请注意,在此之后,您的 B 列将包含集合。 我将让您弄清楚如何使用类似的模式从集合重新转换为字符串。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.