簡體   English   中英

Python Scrapy - 被注釋掉的抓取數據的問題

[英]Python Scrapy - Issues with scraping data that is commented out

經過幾個小時的故障排除,我終於能夠確定我無法抓取這些數據的原因是因為最重要的數據被注釋掉了,並且 js 必須加載它。 “打印響應”確實會看到它,但 scrapy 不會提取該數據。

Scrapy 問題

xpathcomment()來獲取評論。

但它以普通文本的形式提供注釋,您必須刪除<!---->並對其進行解析以在此HTML內進行搜索。 scrapy ,您可以使用 class Selector()來解析它。


最少的工作代碼

from scrapy.selector import Selector

sel = Selector(text='''
<div>
<!--
<div class="outer">
<div class="inner">Hello World</div>
</div>
-->
</div>''')

comment = sel.xpath('//comment()').get()
print(comment)

#html = comment.replace('<!--', '').replace('-->', '')
html = comment[4:-3]
print(html)

sel = Selector(text=html)

divs = sel.xpath('//div').getall()
print(divs)

結果:

<!--
<div class="outer">
<div class="inner">Hello World</div>
</div>
-->

<div class="outer">
<div class="inner">Hello World</div>
</div>

['<div class="outer">\n<div class="inner">Hello World</div>\n</div>', '<div class="inner">Hello World</div>']

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM