繁体   English   中英

使用正则表达式从HTML标记中提取连续文本

Extracting continuous text from HTML tags using regex

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我正在尝试使用正则表达式从html标记中提取文本。 我可以从单个标签中提取文本,但是如果标签一个接一个地存在,我想提取连续文本。

示例(非连续文本):

sample_text = "<b><em>Excellent</em></b> work done by <b><em>Sam</em></b>"
re.findall("(?<=<b>)(.*?)(?=</b>)",sample_text)
>> [<em>Excellent</em>, <em>Sam</em>]

示例(连续文本)

sample_text = "<b><em>Excellent</em></b> work done by <b><em>Sam</em></b><b><em>Miller</em></b>"
re.findall("(?<=<b>)(.*?)(?=</b>)",sample_text)

这就是我得到的:

>> [<em>Excellent</em>, <em>Sam</em> ,<em>Miller</em>]

这是我的预期输出:

>> [<em>Excellent</em>, <em>Sam Miller</em>]

谢谢。

问题暂未有回复.您可以查看右边的相关问题.
2 使用正则表达式提取标签和标签之间的文本

我正在尝试使用正则表达式提取XML标签和标签内的文本。 我了解使用正则表达式不是最佳选择。 我的内联文本文件中只有很少的标签,因此没有选择XML解析器。 问题在于,它仅标识第一个标签,而不能标识第二个或后续标签。 电流输出 期望的输出 ...

3 RegEx匹配HTML标记并提取文本

我有一串这样的测试: 我想使用RegEx修改“customtag”标签之间的文本,使其看起来像这样: 我知道我可以使用MatchEvaluator来修改文本,但我不确定要使用正确的RegEx语法。 任何帮助将非常感激。 ...

2008-11-18 20:01:54 5 38569   c#/ regex
8 使用Perl在HTML标签之间提取文本

我在文档中有HTML标记,如下所示: 我只想从上述HTML文本中提取ACCESS_NUMBER。 我怎样才能做到这一点? 我想确保仅提取所有&lt;H2&gt;标记之间的文本。 任何帮助,将不胜感激。 ...

2014-06-21 08:26:48 3 626   html/ perl
9 仅从html文本文件中提取标签

我正在研究一种隐藏带有html标签的文本的隐写术方法。 例如这个标签: &lt;heEAd&gt;我必须提取标签中的每个字符然后 分析字母的大小写,如果它是大写,那么该位设置为1,否则我也想检查结果是否看到匹配的结束/头标记 这是代码: 这个逻辑很糟糕,但我如何使用I ...

2019-03-25 19:53:20 1 35   c#/ html
10 用漂亮的汤从html标签中提取文本

我有一些HTML页面可以从中抓取数据。 所以我需要像这样获得商品标题:“ Caliper Ring”。 我从显示标题的标签中获取数据: 它包含以下标签结构: 要提取“卡钳球”,我使用 所以我在收集器列表中得到了如此丑陋的输出: 我如何像这里的“ Caliper ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM