从字符串列 python 中提取 substring

Question

我有一个像这样的 dataframe：

name      link
apple    example1.com/dsa/es?id=2812168&width=1200/web/map&resize.html
banana.  example2.com/es?id=28132908&width=1220/web/map_resize.html
orange.  example3.com/es?id=3209908&width=1120/web&map_resize.html

每个名称的 ID 都隐藏在链接中，链接可能具有不同的结构。 但是，我知道模式是 'id=' + 'what I want' + '&'

我想知道，有没有办法从link中提取id并将其放回 dataframe 以获得以下信息：

name      link
apple    2812168
banana.  28132908
orange.  3209908

我尝试使用这个：

df['name'] = df['name'].str.extract(r'id=\s*([^\.]*)\s*\\&', expand=False)

但它返回一个全是nan的列

此外，链接中可能有多个 &

Answer 1

我们可以利用positive lookbehind和positive lookahead ：

df['link'] = df['link'].str.extract('(?<=id\=)(.*?)(?=\&)')


      name      link
0    apple   2812168
1  banana.  28132908
2  orange.   3209908

详情：

(?<=id\=) : 对id=的正面回顾
(.*) : 一切
(?=\&width) : &width width 的正向前瞻

Answer 2

我认为 Ids 总是数字，所以这有点干净：

df["link"] = df['link'].str.extract(r'id=(\d+)&', expand=False)
print(df)
#     name      link
#0   apple   2812168
#1  banana  28132908
#2  orange   3209908

Answer 3

让三split

df['link'].str.split('id=').str[1].str.split('&').str[0]
0     2812168
1    28132908
2     3209908
Name: link, dtype: object

从字符串列 python 中提取 substring

问题描述

3 个解决方案

解决方案1
2 2020-06-14 14:58:19

解决方案2
2 已采纳 2020-06-14 14:59:13

解决方案3
2 2020-06-14 15:04:47

从字符串列 python 中提取 substring

问题描述

3 个解决方案

解决方案1 2 2020-06-14 14:58:19

解决方案2 2 已采纳 2020-06-14 14:59:13

解决方案3 2 2020-06-14 15:04:47

解决方案1
2 2020-06-14 14:58:19

解决方案2
2 已采纳 2020-06-14 14:59:13

解决方案3
2 2020-06-14 15:04:47