[英]Fail to get full content of page with JSoup
我正在嘗試使用JSOUP從以下頁面獲取內容:
http://www.etronics.com/appliances/cooking.html#!/limit=all
我要求使用Jsoup的頁面如下:
Jsoup.connect(url).userAgent(USER_AGENT).timeout(timeoutInMs).data("limit","all").get().outerHtml();
哪里
USER_AGENT = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.146 Safari/537.36";
我希望得到一個包含990個產品的頁面,但我只會得到384個。我想要的是在瀏覽器中具有頁面內容。
如此處所述,這可能是由於JSoup未執行javascript引起的,但我也不知道這是造成我問題的原因,或者至少我不知道如何檢查。
如何獲取通過頁面查看源可見的每個元素?
嘗試將網頁加載到htmlunit中 ,該網頁會執行javascript(您可以在其文檔中了解如何執行此操作)-它允許您訪問網頁DOM。
您也可以在查看頁面時啟動瀏覽器中的開發人員工具,並查看它發出了多少HTTP請求以及在何處-如果在單獨的請求中加載額外的產品,則肯定涉及一些腳本。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.