Pandas groupby 到新欄目

Question

我有一個 dataframe 列code和images 。

列images是由逗號連接的urls字符串： <URL>,<URL2>,...

列code不是唯一的，我需要使其唯一，但將所有圖像（來自所有變體）存儲在新列images_all中。

例如：

code something images
1    x         url1,url2,url3
1    x         url1,url4

結果是：編碼一些 images_all 1 x url1,url2,url3,url4

我做了

grouped = csv.groupby('code')
csv = csv.drop_duplicates(subset=['code'], keep='last')
csv['images_all'] = csv.apply(lambda r:  list(set(
    [image for image in grouped.get_group(r['code'])['images']]
)))

這引發了：

KeyError: 'code'

但即使它沒有提出這個問題，問題是圖像不會是[url1,url2,url3,url4] 。 相反，它將是["url1,url2,url3","url1,url4"] 。

你知道如何解決嗎？

編輯

我還想保留其他列（對於具有相同代碼的所有行，它們都是相同的，這就是為什么我然后只是 drop_duplicates 並保留最后一行）

Answer 1

將GroupBy.transform與自定義 function 一起使用以展平拆分值，然后轉換為集合並最后join唯一值：

f = lambda x: ','.join(set([z for y in x for z in y.split(',')]))
df['images_all'] = df.groupby('code')['images'].transform(f)
print (df)
   code something          images           images_all
0     1         x  url1,url2,url3  url1,url3,url2,url4
1     1         x       url1,url4  url1,url3,url2,url4

Pandas groupby 到新欄目

問題描述

1 個解決方案

解決方案1
1 已采納 2020-07-09 13:06:49

Pandas groupby 到新欄目

問題描述

1 個解決方案

解決方案1 1 已采納 2020-07-09 13:06:49

解決方案1
1 已采納 2020-07-09 13:06:49