Python - Regex - 如何在两组字符串之间查找字符串

Question

考虑以下：

<div id=hotlinklist>
  <a href="foo1.com">Foo1</a>
  <div id=hotlink>
    <a href="/">Home</a>
  </div>
  <div id=hotlink>
    <a href="/extract">Extract</a>
  </div>
  <div id=hotlink>
    <a href="/sitemap">Sitemap</a>
  </div>
</div>

您如何在python中使用regex取出sitemap行？

<a href="/sitemap">Sitemap</a>

以下内容可用于拉出锚标签。

'/<a(.*?)a>/i'

但是，有多个锚标签。 还有多个热链接，所以我们也不能真正使用它们？

Answer 1

不要使用正则表达式。 使用BeautfulSoup ，一个HTML解析器。

from BeautifulSoup import BeautifulSoup

html = \
"""
<div id=hotlinklist>
  <a href="foo1.com">Foo1</a>
  <div id=hotlink>
    <a href="/">Home</a>
  </div>
  <div id=hotlink>
    <a href="/extract">Extract</a>
  </div>
  <div id=hotlink>
    <a href="/sitemap">Sitemap</a>
  </div>
</div>"""

soup = BeautifulSoup(html)
soup.findAll("div",id="hotlink")[2].a

# <a href="/sitemap">Sitemap</a>

Answer 2

使用正则表达式解析HTML是个坏主意！

想想下面这段html

<a></a > <!-- legal html, but won't pass your regex -->

<a href="/sitemap">Sitemap<!-- proof that a>b iff ab>1 --></a>

还有更多这样的例子。 正则表达式适用于许多内容，但不适用于解析HTML。

你应该考虑使用Beautiful Soup python HTML解析器。

无论如何，使用正则表达式的临时解决方案是

import re

data = """
<div id=hotlinklist>
  <a href="foo1.com">Foo1</a>
  <div id=hotlink>
    <a href="/">Home</a>
  </div>
  <div id=hotlink>
    <a href="/extract">Extract</a>
  </div>
  <div id=hotlink>
    <a href="/sitemap">Sitemap</a>
  </div>
</div>
"""

e = re.compile('<a *[^>]*>.*</a *>')

print e.findall(data)

输出：

>>> e.findall(data)
['<a href="foo1.com">Foo1</a>', '<a href="/">Home</a>', '<a href="/extract">Extract</a>', '<a href="/sitemap">Sitemap</a>']

Answer 3

为了提取标语的内容：

    <a href="/sitemap">Sitemap</a>

......我会用：

    >>> import re
    >>> s = '''
    <div id=hotlinklist>
    <a href="foo1.com">Foo1</a>
      <div id=hotlink>
        <a href="/">Home</a>
      </div>
      <div id=hotlink>
        <a href="/extract">Extract</a>
      </div>
      <div id=hotlink>
        <a href="/sitemap">Sitemap</a>
      </div>
    </div>'''
    >>> m = re.compile(r'<a href="/sitemap">(.*?)</a>').search(s)
    >>> m.group(1)
    'Sitemap'

Answer 4

如果需要解析HTML，请使用BeautifulSoup或lxml 。

另外，你真的需要做什么？ 找到最后一个链接？ 找到第三个链接？ 找到指向/ sitemap的链接？ 你不清楚这个问题。 您需要对数据做什么？

如果你真的必须使用正则表达式，请查看findall 。

Python - Regex - 如何在两组字符串之间查找字符串

问题描述

4 个解决方案

解决方案1
13 已采纳 2009-05-11 20:32:41

解决方案2
6 2009-05-11 20:37:51

解决方案3
5 2009-05-12 07:37:33

解决方案4
1 2009-05-11 20:43:23

Python - Regex - 如何在两组字符串之间查找字符串

问题描述

4 个解决方案

解决方案1 13 已采纳 2009-05-11 20:32:41

解决方案2 6 2009-05-11 20:37:51

解决方案3 5 2009-05-12 07:37:33

解决方案4 1 2009-05-11 20:43:23

解决方案1
13 已采纳 2009-05-11 20:32:41

解决方案2
6 2009-05-11 20:37:51

解决方案3
5 2009-05-12 07:37:33

解决方案4
1 2009-05-11 20:43:23