重复正则表达式组

Question

我正在尝试从网站上获取一些信息。 我想要的信息在一个表中，所以我做了一个正则表达式，但是我不知道简化它的正确方法。

以下是我想简化的正则表达式的两个部分：

<br>(.*)<br>(.*)<br>(.*)

<tr><td>(.+)r>(.+)r>(.+)r>(.+).+</td></tr> # This part should be repeated n times(n = 1 to 10)

我浏览了python文档，但我不知道该怎么做。 也许您可以给我一个提示。

谢谢，MF。

Answer 1

RegEx匹配XHTML自包含标签以外的打开标签

“您是否尝试过使用XML解析器？”

编辑：这是要走的路：美丽的汤

Answer 2

除非您试图从一个小片段中抓取一些数据，否则这是错误的方法。

如果使用宽容的HTML会更好。 前面提到的BeautifulSoup是一个不错的选择，但是它停滞了，而且我不认为它会得到积极维护。

强烈推荐用于Python的解析器是lxml 。

有一个长时间的讨论线程在我们本地的邮件列表解析XHTML 在这里，你可能会发现有用的。

Answer 3

您只需要将块放在parens中，然后使用{...}运算符即可，例如：

(foo...){1,10}

在其中匹配事物的1到10个实例。 给定上面的示例，您可以嵌套它们：

((f..)(b..)){1,10}