[英]Python Scrapy - Issues with scraping data that is commented out
xpath
有comment()
來獲取評論。
但它以普通文本的形式提供注釋,您必須刪除<!--
和-->
並對其進行解析以在此HTML
內進行搜索。 在scrapy
,您可以使用 class Selector()
來解析它。
最少的工作代碼
from scrapy.selector import Selector
sel = Selector(text='''
<div>
<!--
<div class="outer">
<div class="inner">Hello World</div>
</div>
-->
</div>''')
comment = sel.xpath('//comment()').get()
print(comment)
#html = comment.replace('<!--', '').replace('-->', '')
html = comment[4:-3]
print(html)
sel = Selector(text=html)
divs = sel.xpath('//div').getall()
print(divs)
結果:
<!--
<div class="outer">
<div class="inner">Hello World</div>
</div>
-->
<div class="outer">
<div class="inner">Hello World</div>
</div>
['<div class="outer">\n<div class="inner">Hello World</div>\n</div>', '<div class="inner">Hello World</div>']
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.