繁体 English 中英

使用Jsoup解析html-返回的带有机器人meta标签的文档

[英]parsing html using Jsoup - returned document with robots meta tag

原文 2014-04-07 17:55:13 1 1 javascript/ html/ jsoup/ bots/ incapsula

我的问题是，当我使用jsoup lib解析特定的URL时，直到一天我的解析已损坏，这一直很棒，返回的文档有一些标签，与旧文档完全不同，它的元标签名为“ROBOTS”。

响应中标头的示例：

<head>
  <meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
  <meta name="format-detection" content="telephone=no" />
  <meta name="viewport" content="initial-scale=1.0" />
</head>

我的问题是，您认为我如何克服这一障碍？ 尝试使用其他也可以解析javascript的库，但是它没有帮助，并且结果相同，也许我没有正确使用它。

（我了解到，元标记机器人是为防止机器人而设计的，最初是为搜索引擎而设计的，我该如何绕过此行为？如何像常规的浏览器客户端一样工作？）

1 个解决方案

您没有在回答中明确说明这一点，但是我假设向Jsoup发送的HTML与您的浏览器所看到的HTML不同。 在这种情况下，您可能需要设置用户代理标头，以便Jsoup看起来像您的浏览器。

使用PHP覆盖现有的元机器人标记

[英]Override existing meta robots tag with PHP

如何使用jsoup选择html文档的叶标记

[英]How to select leaf tags of an html document using jsoup

使用Jsoup从android应用程序的html文档中提取元素

[英]Extracting Element from html document for android app using Jsoup

使用JavaScript（节点）解析HTML文档

[英]Parsing an HTML document using JavaScript (Node)

通过使用Javascript禁用其他HTML页面的javascript和meta标记

[英]Disable the javascript and meta tag from other HTML page by using Javascript

如何使用JavaScript检查是否存在html元标记？

[英]How do you check if a html Meta tag exist using JavaScript?

使用JavaScript解析html标记

[英]Parsing an html tag with JavaScript

从文档正文中注入元标记？

[英]Inject a meta tag from a document's body?

通过JSOUP解析时不希望创建文档结构

[英]Don't want the document structure to be created while parsing through JSOUP

使用Jsoup获取脚本标签内的文本

[英]Obtain text within script tag using Jsoup

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用PHP覆盖现有的元机器人标记如何使用jsoup选择html文档的叶标记使用Jsoup从android应用程序的html文档中提取元素使用JavaScript（节点）解析HTML文档通过使用Javascript禁用其他HTML页面的javascript和meta标记如何使用JavaScript检查是否存在html元标记？使用JavaScript解析html标记从文档正文中注入元标记？通过JSOUP解析时不希望创建文档结构使用Jsoup获取脚本标签内的文本

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM