[英]match string pattern in python
我有一个可以包含链接的字符串:
<a href="http://site1.com/">Hello</a> <a href="http://site2.com/">Hello2</a>
<a href="http://site3.com">Hello3</a> ...
如何提取所有html标签“ Hello”,“ Hello2”,“ Hello3” ...的文本(而不是链接)? 我在考虑应该包含所有文本的列表。
使用lxml :
import lxml.html as LH
content = '''
<a href="http://site1.com/">Hello</a> <a href="http://site2.com/">Hello2</a>
<a href="http://site3.com">Hello3</a>
<a href="/">go <b>home</b>, dude!</a>
'''
doc = LH.fromstring(content)
texts = [elt.text_content() for elt in doc.xpath('//a')]
print(texts)
产量
['Hello', 'Hello2', 'Hello3', 'go home, dude!']
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.