使用JSoup無法獲取頁面的完整內容

Question

我正在嘗試使用JSOUP從以下頁面獲取內容：

我要求使用Jsoup的頁面如下：

Jsoup.connect(url).userAgent(USER_AGENT).timeout(timeoutInMs).data("limit","all").get().outerHtml();

哪里

USER_AGENT = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.146 Safari/537.36";

我希望得到一個包含990個產品的頁面，但我只會得到384個。我想要的是在瀏覽器中具有頁面內容。

如此處所述，這可能是由於JSoup未執行javascript引起的，但我也不知道這是造成我問題的原因，或者至少我不知道如何檢查。

如何獲取通過頁面查看源可見的每個元素？

Answer 1

嘗試將網頁加載到htmlunit中，該網頁會執行javascript（您可以在其文檔中了解如何執行此操作）-它允許您訪問網頁DOM。

您也可以在查看頁面時啟動瀏覽器中的開發人員工具，並查看它發出了多少HTTP請求以及在何處-如果在單獨的請求中加載額外的產品，則肯定涉及一些腳本。