繁体 English 中英

使用Jsoup提取“隐藏的” HTML

[英]Extracting “hidden” HTML with Jsoup

原文 2015-11-24 15:43:48 1 2 javascript/ java/ html/ jsoup

我试图获取HTML数据，这些数据不会出现在源文档中，但是可以通过例如Google Chrome中的“检查元素”公开。

示例页面： http : //assignment.uspto.gov/#/search?q=9000000&sort=patAssignorEarliestExDate%20desc%2C%20id%20desc&synonyms=false

该行下方显示了许多div元素，其中包含第9,000,000号美国专利的分配数据

<script async="async" type="text/javascript" src="https://components.uspto.gov/js/ais/2-2-assignment-search.js"></script>

有没有办法用Jsoup提取这个隐藏的html？

2 个解决方案

数据似乎已用AJAX加载。 JSoup不处理Javascript。

您需要的是“无头浏览器” API，该API可处理Javascript而不实际呈现任何内容。

HtmlUnit似乎是最知名的工具，尽管我自己从未使用过。 如前所述，Selenium Webdriver也是一种选择。

我相信您将必须加载URL，等待所有AJAX处理，最终您将获得与Java中的Chrome几乎相同的解析树，并可以根据需要使用它！

如果这是您唯一需要的信息，那么这是您要查找的信息的JSON URL：

http://prod-proxy-lb-2117675230.us-east-1.elb.amazonaws.com/solr/aotw/search?json.wrf=jQuery1102004354461841285229_1448413727331&q=9000000&facet.date.other=before&rows=20&start=0&wt=json&facet。 date.start = NOW％2FYEAR-50年＆FL = ID％2CreelNo％2CframeNo％2CconveyanceText％2CpatAssigneeName％2CpatAssignorName％2CinventionTitleFirst％2CapplNumFirst％2CpublNumFirst％2CpatNumFirst％2CintlRegNumFirst％2CcorrName％2CcorrAddress1％2CcorrAddress2％2CcorrAddress3％2CpatAssignorEarliestExDate％2CfilingDateFirst％2CpublDateFirst％2CissueDateFirst％2CintlPublDateFirst％ 2CpatNumSize＆hl.fl = reelNo％2CframeNo％2CpatAssigneeName％2CpatAssignorName％2CconveyanceText％2CinventionTitleFirst％2CapplNumFirst％2CpublNumFirst％2CpatNumFirst％2CintlRegNumFirst％2CcorrName％2CcorrAddress1％2CcorrAddress2％2CcorrAddress3＆hl.requireFieldMatch =真排序= patAssignorEarliestExDate +降序％2C + ID +降序

通过检查Chrome开发者工具的“网络”标签可以检索到此内容，并且可以使用HttpConnection获取此url的内容。 一个例子可以在这里找到。 获取JSON文件后，您可以对其进行解析以检索所需的任何信息。

使用Jsoup从android应用程序的html文档中提取元素

[英]Extracting Element from html document for android app using Jsoup

使用JSOUP的HTML注释

[英]HTML annotation with JSOUP

Jsoup获取动态生成的HTML

[英]Jsoup get dynamically generated HTML

使用JSoup获取被onclick按钮javascript隐藏的表的内容

[英]Getting the content of a table that being hidden by an onclick button javascript using JSoup

用于提取html标签的xpath

[英]xpath for extracting html tags

正确提取HTML

[英]Extracting HTML The Right Way

使用Jsoup无法找到一些html元素

[英]Unable to find some html elements using Jsoup

登录页面，然后使用JSOUP解析html

[英]Login to page then parse html using JSOUP

HTML抓取网站加载错误的Jsoup Java

[英]Html scraping Site Loads Wrong Jsoup Java

使Jsoup支持JavaScript动态生成的html

[英]Getting Jsoup to support dynamically generated html by JavaScript

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Jsoup从android应用程序的html文档中提取元素使用JSOUP的HTML注释 Jsoup获取动态生成的HTML 使用JSoup获取被onclick按钮javascript隐藏的表的内容用于提取html标签的xpath 正确提取HTML 使用Jsoup无法找到一些html元素登录页面，然后使用JSOUP解析html HTML抓取网站加载错误的Jsoup Java 使Jsoup支持JavaScript动态生成的html

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM