如何在正则表达式搜索中排除彭定康的字符串

Question

如何使用正则表达式在html字符串中搜索单词，但忽略html标记中的单词。 例如<a href="foo">foo</a> ，应忽略第一个foo ，第二个foo是要搜索的模式。

Answer 1

将BeautifulSoup 与正则表达式结合使用的示例：

from bs4 import BeautifulSoup
import re

string = '''
<a class='fooo123'>foo on its own</a>
<a class='123foo'>only foo</a>
'''

soup = BeautifulSoup(string, "lxml")
foo_links = soup.find_all(text=re.compile("^foo"))
print(foo_links)
# ['foo on its own']

要使用eg mark 包装找到的链接，可以执行以下操作：

from bs4 import BeautifulSoup
import re

string = '''
<a class='fooo123'>foo on its own</a>
<a class='123foo'>only foo</a>
'''

soup = BeautifulSoup(string, "lxml")
foo_links = soup.findAll('a', text=re.compile("^foo"))
for a in foo_links:
    mark = soup.new_tag('mark')
    a.wrap(mark)

print(soup.prettify())

以及强制性的Tony the Pony链接...

Answer 2

该程序应该能够找到标签之间的所有内容。

import re

str = '''<h3>
            <a href="//stackexchange.com/users/838793061/?accounts">yourcommunities</a>
    </h3>

        <a href="#" id="edit-pinned-sites">edit</a>
        <a href="#" id="cancel-pinned-sites"style="display:none;">cancel</a>'''

pattern = re.compile(r'>([^<>]+)<')
all = re.findall(pattern, str)

for i in all:
    print(i)

Answer 3

如果内容包含空格怎么办？

我提出了下一个正则表达式，该正则表达式也从答案中删除了空格：

#### With spaces:
line = '<a href="foo">     foo       </a>'
re.findall(r'>\s*(\w*)\s*<',line)
### ['foo']

#### No spaces:
line = '<a href="foo">foo</a>'
re.findall(r'>\s*(\w*)\s*<',line)
### ['foo']

如何在正则表达式搜索中排除彭定康的字符串

问题描述

3 个解决方案

解决方案1
1 2016-08-12 05:38:17

解决方案2
1 2016-08-12 06:54:01

解决方案3
0 2016-08-20 23:10:16

如何在正则表达式搜索中排除彭定康的字符串

问题描述

3 个解决方案

解决方案1 1 2016-08-12 05:38:17

解决方案2 1 2016-08-12 06:54:01

解决方案3 0 2016-08-20 23:10:16

解决方案1
1 2016-08-12 05:38:17

解决方案2
1 2016-08-12 06:54:01

解决方案3
0 2016-08-20 23:10:16