[英]Scrape page after onload JS DOM injection
我正在構建一個從頁面獲取主圖像(當前基於Content-Length
)的刮板。 它遍歷所有<img>
元素並發出HEAD
請求。 但是某些頁面,尤其是 移動設備,在頁面加載后插入圖片。 關於如何解決這個問題的任何想法?
我正在使用node.js
我不確定它是否可以解決您的問題,但是您可以考慮使用jsdom ,因為它可以獲取和執行頁面中的腳本,並在服務器端提供DOM。 就像是:
var request = require('request'),
jsdom = require('jsdom').jsdom;
request(url, function(err, response, body) {
if(err) return console.error(err);
var doc = jsdom(body, null, {
FetchExternalResources: ['script', 'img']
});
var window = doc.createWindow();
var images = doc.getElementsByTagName('img');
});
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.