繁体   English   中英

如何使用正则表达式从html标记之间提取文本?

[英]How to extract text from between html tag using Regular Expressions?

我需要从textarea标签之间提取文本。

我该如何使用正则表达式呢?

<textarea rows="20" cols="70" name="file" id="file" style="width: 100%;"data-input-file="1">
 abc_text
 #include<abc>
 xyz
</textarea>

你可以试试,

>>> print [x.strip() for x in re.findall('<textarea.*?>(.*)</textarea>', content, re.MULTILINE | re.DOTALL)]
['abc_text\n #include<abc>\n xyz']

根据XML规则,XML无效。 开头和结尾标签不匹配。

#include<abc>

<abc>是开始标记,不是内容。

XML解析库不会解析无效的Input。


修改输入:

如果将#include<abc>更改为#include&lt;abc&gt; 那么以下将起作用:

>>> import lxml.html as PARSER
>>> root = PARSER.fromstring(data)
>>> root.xpath("//textarea/text()")
['\n abc_text\n #include<abc>\n xyz\n']
>>> 

通过RE:

>>> data
'<textarea rows="20" cols="70" name="file" id="file" style="width: 100%;"data-input-file="1">\n abc_text\n</textarea>'
>>> import re
>>> re.findall('<textarea[^>]*>[^<]*</textarea>', data)
['<textarea rows="20" cols="70" name="file" id="file" style="width: 100%;"data-input-file="1">\n abc_text\n</textarea>']
>>> 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM