簡體 English 中英

使用Jsoup提取“隱藏的” HTML

[英]Extracting “hidden” HTML with Jsoup

原文 2015-11-24 15:43:48 3 2 javascript/ java/ html/ jsoup

我試圖獲取HTML數據，這些數據不會出現在源文檔中，但是可以通過例如Google Chrome中的“檢查元素”公開。

示例頁面： http : //assignment.uspto.gov/#/search?q=9000000&sort=patAssignorEarliestExDate%20desc%2C%20id%20desc&synonyms=false

該行下方顯示了許多div元素，其中包含第9,000,000號美國專利的分配數據

<script async="async" type="text/javascript" src="https://components.uspto.gov/js/ais/2-2-assignment-search.js"></script>

有沒有辦法用Jsoup提取這個隱藏的html？

2 個解決方案

數據似乎已用AJAX加載。 JSoup不處理Javascript。

您需要的是“無頭瀏覽器” API，該API可處理Javascript而不實際呈現任何內容。

HtmlUnit似乎是最知名的工具，盡管我自己從未使用過。 如前所述，Selenium Webdriver也是一種選擇。

我相信您將必須加載URL，等待所有AJAX處理，最終您將獲得與Java中的Chrome幾乎相同的解析樹，並可以根據需要使用它！

如果這是您唯一需要的信息，那么這是您要查找的信息的JSON URL：

http://prod-proxy-lb-2117675230.us-east-1.elb.amazonaws.com/solr/aotw/search?json.wrf=jQuery1102004354461841285229_1448413727331&q=9000000&facet.date.other=before&rows=20&start=0&wt=json&facet。 date.start = NOW％2FYEAR-50年＆FL = ID％2CreelNo％2CframeNo％2CconveyanceText％2CpatAssigneeName％2CpatAssignorName％2CinventionTitleFirst％2CapplNumFirst％2CpublNumFirst％2CpatNumFirst％2CintlRegNumFirst％2CcorrName％2CcorrAddress1％2CcorrAddress2％2CcorrAddress3％2CpatAssignorEarliestExDate％2CfilingDateFirst％2CpublDateFirst％2CissueDateFirst％2CintlPublDateFirst％ 2CpatNumSize＆hl.fl = reelNo％2CframeNo％2CpatAssigneeName％2CpatAssignorName％2CconveyanceText％2CinventionTitleFirst％2CapplNumFirst％2CpublNumFirst％2CpatNumFirst％2CintlRegNumFirst％2CcorrName％2CcorrAddress1％2CcorrAddress2％2CcorrAddress3＆hl.requireFieldMatch =真排序= patAssignorEarliestExDate +降序％2C + ID +降序

通過檢查Chrome開發者工具的“網絡”標簽可以檢索到此內容，並且可以使用HttpConnection獲取此url的內容。 一個例子可以在這里找到。 獲取JSON文件后，您可以對其進行解析以檢索所需的任何信息。

使用Jsoup從android應用程序的html文檔中提取元素

[英]Extracting Element from html document for android app using Jsoup

使用JSOUP的HTML注釋

[英]HTML annotation with JSOUP

Jsoup獲取動態生成的HTML

[英]Jsoup get dynamically generated HTML

使用JSoup獲取被onclick按鈕javascript隱藏的表的內容

[英]Getting the content of a table that being hidden by an onclick button javascript using JSoup

用於提取html標簽的xpath

[英]xpath for extracting html tags

正確提取HTML

[英]Extracting HTML The Right Way

使用Jsoup無法找到一些html元素

[英]Unable to find some html elements using Jsoup

登錄頁面，然后使用JSOUP解析html

[英]Login to page then parse html using JSOUP

HTML抓取網站加載錯誤的Jsoup Java

[英]Html scraping Site Loads Wrong Jsoup Java

使Jsoup支持JavaScript動態生成的html

[英]Getting Jsoup to support dynamically generated html by JavaScript

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用Jsoup從android應用程序的html文檔中提取元素使用JSOUP的HTML注釋 Jsoup獲取動態生成的HTML 使用JSoup獲取被onclick按鈕javascript隱藏的表的內容用於提取html標簽的xpath 正確提取HTML 使用Jsoup無法找到一些html元素登錄頁面，然后使用JSOUP解析html HTML抓取網站加載錯誤的Jsoup Java 使Jsoup支持JavaScript動態生成的html

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM