![](/img/trans.png)
[英]How to combine scrapy and htmlunit to crawl urls with javascript
[英]How to filter javascript from specific urls in HtmlUnit
HtmlUnit需要花費大量時間來執行javascript,我想知道是否有可能使HtmlUnit不從url regex過濾器加載javascript。
不完全是,您不能只整體禁用javascript(可能您已經知道):
final WebClient webClient = new WebClient();
webClient.getOptions().setJavascriptEnable(false);
但您可以使用ScriptPreProcessor javascript,並清除不需要的內容:
webClient.setScriptPreProcessor(new ScriptPreProcessor() {
@Override
public String preProcess(HtmlPage htmlPage, String sourceCode, String sourceName, int lineNumber, HtmlElement htmlElement) {
if (match...)
return "";
}
});
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.