簡體   English   中英

Jsoup獲取動態生成的HTML

[英]Jsoup get dynamically generated HTML

我可以連接到大多數站點,並且可以很好地獲取HTML,但是當嘗試連接到使用JavaScript初始頁面加載后生成大部分內容的網站時,它不會獲取任何數據。 有什么辦法可以用Jsoup做到這一點,或者它不支持它嗎?

JSoup包含一些基本的連接處理,但它不是Web瀏覽器。 它擅長解析靜態html內容。 它不運行任何JavaScript,因此您很不走運。 但是,您可能會遵循不同的選項:

  1. 您可以分析要檢索的頁面,並找出您感興趣的內容是如何加載的。 通常,點擊加載內容的原始來源並使用它並不難。 這種方法的好處是無需額外的庫即可獲得所需內容,並且檢索速度很快。

  2. 您可以使用(完整的)瀏覽器來自動執行頁面的加載。 一個非常好的工具是將硒webdriver與無頭webkit瀏覽器phantomjs結合使用。 但是,這需要您項目中的其他軟件和庫,並且運行速度會比第一個解決方案慢得多。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM