簡體   English   中英

Jsoup沒有得到完整的HTML

[英]Jsoup not getting full html

我正在嘗試Jsoup從URL http://www.threadflip.com/shop/search/john%20hardy解析html

Jsoup看起來只從行中獲取數據

<![CDATA[ window.gon= ..............

有誰知道為什么會這樣嗎?

Document doc = Jsoup.connect("http://www.threadflip.com/shop/search/john%20hardy").get();

您嘗試解析的站點將通過AJAX調用異步加載其大部分內容。 JSoup不解釋Javascript,因此不像瀏覽器那樣工作。 似乎通過調用其api來填充商店:

http://www.threadflip.com/api/v3/items?attribution%5Bapp%5D=web&item_collection_id=&q=john+hardy&page=1&page_size=30

因此,也許您需要直接加載API網址才能讀取所需的內容。 請注意,響應是JSON而不是HTML,因此JSoup html解析器在這里沒有太大幫助。 但是有很多很棒的JSON庫可用。 我使用JSON-Simple。

或者,您可以切換到Selenium webdriver ,它實際上可以遠程控制真正的瀏覽器。 從頁面訪問所有項目應該沒有問題。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM