如何使用正则表达式仅从以下字符串中提取URL？

Question

我正在从一组原始数据中提取URL，我打算使用python正则表达式来做到这一点。

我试过了

(http.+)

但是，整个部分都从http开始。

输入

href =“ http://twitter.com/download/iphone” rel =“ nofollow”>适用于iPhone的Twitter

https://vine.co/v/i6iIrBwnTFI

预期产量

http://twitter.com/download/iphone

https://vine.co/v/i6iIrBwnTFI

Answer 1

试试这个： http[^\\"^\\s]*

假设您的所有链接都以http开头，并且遇到空白或"

这是使用方法：

import re
regexp = '''http[^\"^\s]*'''
urls = '''href="http://twitter.com/download/iphone" rel="nofollow">Twitter for iPhone https://vine.co/v/i6iIrBwnTFI'''
output = re.findall(regexp, urls)
output

[ ' http://twitter.com/download/iphone '， ' https://vine.co/v/i6iIrBwnTFI ']

Answer 2

首先，您应该在网址中找到有效的字符

然后，正则表达式可以是：

(http://|https://)([a-zA-Z0-9\-\._~:/\?\#\[\]@!$&'\(\)\*\+,;=]+)

在我的python解释器中，它看起来像：

>>> import re
>>> regexp = '''(http://|https://)([a-zA-Z0-9\-\._~:/\?\#\[\]@!$&'\(\)\*\+,;=]+)'''
>>> url = '''href="http://twitter.com/download/iphone" rel="nofollow">Twitter for iPhone https://vine.co/v/i6iIrBwnTFI'''
>>> r = re.findall(regexp, url)
>>> r
[('http://', 'twitter.com/download/iphone'), ('https://', 'vine.co/v/i6iIrBwnTFI')]
>>> [x[0]+x[1] for x in r]
['http://twitter.com/download/iphone', 'https://vine.co/v/i6iIrBwnTFI']

如何使用正则表达式仅从以下字符串中提取URL？

问题描述

2 个解决方案

解决方案1
0 已采纳 2018-12-29 04:05:42

解决方案2
0 2018-12-29 04:06:02

如何使用正则表达式仅从以下字符串中提取URL？

问题描述

2 个解决方案

解决方案1 0 已采纳 2018-12-29 04:05:42

解决方案2 0 2018-12-29 04:06:02

解决方案1
0 已采纳 2018-12-29 04:05:42

解决方案2
0 2018-12-29 04:06:02