[英]Python Scrapy - Issues with scraping data that is commented out
xpath
有comment()
来获取评论。
但它以普通文本的形式提供注释,您必须删除<!--
和-->
并对其进行解析以在此HTML
内进行搜索。 在scrapy
,您可以使用 class Selector()
来解析它。
最少的工作代码
from scrapy.selector import Selector
sel = Selector(text='''
<div>
<!--
<div class="outer">
<div class="inner">Hello World</div>
</div>
-->
</div>''')
comment = sel.xpath('//comment()').get()
print(comment)
#html = comment.replace('<!--', '').replace('-->', '')
html = comment[4:-3]
print(html)
sel = Selector(text=html)
divs = sel.xpath('//div').getall()
print(divs)
结果:
<!--
<div class="outer">
<div class="inner">Hello World</div>
</div>
-->
<div class="outer">
<div class="inner">Hello World</div>
</div>
['<div class="outer">\n<div class="inner">Hello World</div>\n</div>', '<div class="inner">Hello World</div>']
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.