![](/img/trans.png)
[英]Extracting Element from html document for android app using Jsoup
[英]Extracting “hidden” HTML with Jsoup
我試圖獲取HTML數據,這些數據不會出現在源文檔中,但是可以通過例如Google Chrome中的“檢查元素”公開。
示例頁面: http : //assignment.uspto.gov/#/search?q=9000000&sort=patAssignorEarliestExDate%20desc%2C%20id%20desc&synonyms=false
該行下方顯示了許多div元素,其中包含第9,000,000號美國專利的分配數據
<script async="async" type="text/javascript" src="https://components.uspto.gov/js/ais/2-2-assignment-search.js"></script>
有沒有辦法用Jsoup提取這個隱藏的html?
數據似乎已用AJAX加載。 JSoup不處理Javascript。
您需要的是“無頭瀏覽器” API,該API可處理Javascript而不實際呈現任何內容。
HtmlUnit似乎是最知名的工具,盡管我自己從未使用過。 如前所述,Selenium Webdriver也是一種選擇。
我相信您將必須加載URL,等待所有AJAX處理,最終您將獲得與Java中的Chrome幾乎相同的解析樹,並可以根據需要使用它!
如果這是您唯一需要的信息,那么這是您要查找的信息的JSON
URL:
通過檢查Chrome開發者工具的“網絡”標簽可以檢索到此內容,並且可以使用HttpConnection
獲取此url的內容。 一個例子可以在這里找到。 獲取JSON
文件后,您可以對其進行解析以檢索所需的任何信息。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.