![](/img/trans.png)
[英]Extracting Element from html document for android app using Jsoup
[英]Extracting “hidden” HTML with Jsoup
我试图获取HTML数据,这些数据不会出现在源文档中,但是可以通过例如Google Chrome中的“检查元素”公开。
示例页面: http : //assignment.uspto.gov/#/search?q=9000000&sort=patAssignorEarliestExDate%20desc%2C%20id%20desc&synonyms=false
该行下方显示了许多div元素,其中包含第9,000,000号美国专利的分配数据
<script async="async" type="text/javascript" src="https://components.uspto.gov/js/ais/2-2-assignment-search.js"></script>
有没有办法用Jsoup提取这个隐藏的html?
数据似乎已用AJAX加载。 JSoup不处理Javascript。
您需要的是“无头浏览器” API,该API可处理Javascript而不实际呈现任何内容。
HtmlUnit似乎是最知名的工具,尽管我自己从未使用过。 如前所述,Selenium Webdriver也是一种选择。
我相信您将必须加载URL,等待所有AJAX处理,最终您将获得与Java中的Chrome几乎相同的解析树,并可以根据需要使用它!
如果这是您唯一需要的信息,那么这是您要查找的信息的JSON
URL:
通过检查Chrome开发者工具的“网络”标签可以检索到此内容,并且可以使用HttpConnection
获取此url的内容。 一个例子可以在这里找到。 获取JSON
文件后,您可以对其进行解析以检索所需的任何信息。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.