如何为熊猫列中的唯一值创建行？

Question

I have a pandas dataframe with thousands of rows like so:我有一个包含数千行的 Pandas 数据框，如下所示：

IntentID     IntentName         Query           Response
1            Intent Name 1      Query 1         Response1
2            Intent Name 1      Query 1         Response2
3            Intent Name 2      Query 2         Response3
4            Intent Name 2      Query 2         Response4
5            Intent Name 3      Query 3         Response5

I need all unique values in "IntentName" to have the same IntentID value like so:我需要“IntentName”中的所有唯一值都具有相同的 IntentID 值，如下所示：

IntentID     IntentName         Query           Response
1            Intent Name 1      Query 1         Response1
1            Intent Name 1      Query 1         Response2
2            Intent Name 2      Query 2         Response3
2            Intent Name 2      Query 2         Response4
3            Intent Name 3      Query 3         Response5

What is the easiest way to do this?什么是最简单的方法来做到这一点？

Answer 1

Try this:尝试这个：

df['IntentID'] = df.groupby('IntentName') \
                    ['IntentID'].transform('first') \
                    .rank(method='dense') \
                    .astype('int')

How it works:这个怎么运作：

Group the rows by IntentName按IntentName对行进行IntentName
For each group, keep the first IntentID对于每个组，保留第一个IntentID
Rank those IntentID s 1, 1, 2, 2, 3, etc. ( method=dense )对那些IntentID s 1, 1, 2, 2, 3 等进行排名（ method=dense ）
Convert the ranks to int将等级转换为 int

Answer 2

You can use regex:您可以使用正则表达式：

df['IntentID'] = df.IntentName.apply(lambda x: re.search('(?P<num>\d+)',x).groups()[0])

output输出

  IntentID     IntentName    Query   Response
0        1  Intent Name 1  Query 1  Response1
1        1  Intent Name 1  Query 1  Response2
2        2  Intent Name 2  Query 2  Response3
3        2  Intent Name 2  Query 2  Response4
4        3  Intent Name 3  Query 3  Response5

如何为熊猫列中的唯一值创建行？

问题描述

2 个解决方案

解决方案1
2 已采纳 2019-12-03 02:33:20

解决方案2
1 2019-12-03 02:35:50

如何为熊猫列中的唯一值创建行？

问题描述

2 个解决方案

解决方案1 2 已采纳 2019-12-03 02:33:20

解决方案2 1 2019-12-03 02:35:50

解决方案1
2 已采纳 2019-12-03 02:33:20

解决方案2
1 2019-12-03 02:35:50