簡體 English 中英

使用Jsoup解析html-返回的帶有機器人meta標簽的文檔

[英]parsing html using Jsoup - returned document with robots meta tag

原文 2014-04-07 17:55:13 4 1 javascript/ html/ jsoup/ bots/ incapsula

我的問題是，當我使用jsoup lib解析特定的URL時，直到一天我的解析已損壞，這一直很棒，返回的文檔有一些標簽，與舊文檔完全不同，它的元標簽名為“ROBOTS”。

響應中標頭的示例：

<head>
  <meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
  <meta name="format-detection" content="telephone=no" />
  <meta name="viewport" content="initial-scale=1.0" />
</head>

我的問題是，您認為我如何克服這一障礙？ 嘗試使用其他也可以解析javascript的庫，但是它沒有幫助，並且結果相同，也許我沒有正確使用它。

（我了解到，元標記機器人是為防止機器人而設計的，最初是為搜索引擎而設計的，我該如何繞過此行為？如何像常規的瀏覽器客戶端一樣工作？）

1 個解決方案

您沒有在回答中明確說明這一點，但是我假設向Jsoup發送的HTML與您的瀏覽器所看到的HTML不同。 在這種情況下，您可能需要設置用戶代理標頭，以便Jsoup看起來像您的瀏覽器。

使用PHP覆蓋現有的元機器人標記

[英]Override existing meta robots tag with PHP

如何使用jsoup選擇html文檔的葉標記

[英]How to select leaf tags of an html document using jsoup

使用Jsoup從android應用程序的html文檔中提取元素

[英]Extracting Element from html document for android app using Jsoup

使用JavaScript（節點）解析HTML文檔

[英]Parsing an HTML document using JavaScript (Node)

通過使用Javascript禁用其他HTML頁面的javascript和meta標記

[英]Disable the javascript and meta tag from other HTML page by using Javascript

如何使用JavaScript檢查是否存在html元標記？

[英]How do you check if a html Meta tag exist using JavaScript?

使用JavaScript解析html標記

[英]Parsing an html tag with JavaScript

從文檔正文中注入元標記？

[英]Inject a meta tag from a document's body?

通過JSOUP解析時不希望創建文檔結構

[英]Don't want the document structure to be created while parsing through JSOUP

使用Jsoup獲取腳本標簽內的文本

[英]Obtain text within script tag using Jsoup

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用PHP覆蓋現有的元機器人標記如何使用jsoup選擇html文檔的葉標記使用Jsoup從android應用程序的html文檔中提取元素使用JavaScript（節點）解析HTML文檔通過使用Javascript禁用其他HTML頁面的javascript和meta標記如何使用JavaScript檢查是否存在html元標記？使用JavaScript解析html標記從文檔正文中注入元標記？通過JSOUP解析時不希望創建文檔結構使用Jsoup獲取腳本標簽內的文本

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM