繁体   English   中英

重复正则表达式组

[英]Repeating regex groups

我正在尝试从网站上获取一些信息。 我想要的信息在一个表中,所以我做了一个正则表达式,但是我不知道简化它的正确方法。

以下是我想简化的正则表达式的两个部分:

<br>(.*)<br>(.*)<br>(.*)

<tr><td>(.+)r>(.+)r>(.+)r>(.+).+</td></tr> # This part should be repeated n times(n = 1 to 10)

我浏览了python文档,但我不知道该怎么做。 也许您可以给我一个提示。

谢谢,MF。

RegEx匹配XHTML自包含标签以外的打开标签

“您是否尝试过使用XML解析器?”

编辑:这是要走的路: 美丽的汤

除非您试图从一个小片段中抓取一些数据,否则这是错误的方法。

如果使用宽容的HTML会更好。 前面提到的BeautifulSoup是一个不错的选择,但是它停滞了,而且我不认为它会得到积极维护。

强烈推荐用于Python的解析器是lxml

有一个长时间的讨论线程在我们本地的邮件列表解析XHTML 在这里 ,你可能会发现有用的。

您只需要将块放在parens中,然后使用{...}运算符即可,例如:

(foo...){1,10}

在其中匹配事物的1到10个实例。 给定上面的示例,您可以嵌套它们:

((f..)(b..)){1,10}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM