簡體   English   中英

使用JSoup無法獲取頁面的完整內容

[英]Fail to get full content of page with JSoup

我正在嘗試使用JSOUP從以下頁面獲取內容:

http://www.etronics.com/appliances/cooking.html#!/limit=all

我要求使用Jsoup的頁面如下:

Jsoup.connect(url).userAgent(USER_AGENT).timeout(timeoutInMs).data("limit","all").get().outerHtml();

哪里

USER_AGENT = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.146 Safari/537.36";

我希望得到一個包含990個產品的頁面,但我只會得到384個。我想要的是在瀏覽器中具有頁面內容。

如此處所述這可能是由於JSoup未執行javascript引起的,但我也不知道這是造成我問題的原因,或者至少我不知道如何檢查。

如何獲取通過頁面查看源可見的每個元素?

嘗試將網頁加載到htmlunit中 ,該網頁會執行javascript(您可以在其文檔中了解如何執行此操作)-它允許您訪問網頁DOM。

您也可以在查看頁面時啟動瀏覽器中的開發人員工具,並查看它發出了多少HTTP請求以及在何處-如果在單獨的請求中加載額外的產品,則肯定涉及一些腳本。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM