簡體   English   中英

使用Jsoup解析html-返回的帶有機器人meta標簽的文檔

[英]parsing html using Jsoup - returned document with robots meta tag

我的問題是,當我使用jsoup lib解析特定的URL時,直到一天我的解析已損壞,這一直很棒,返回的文檔有一些標簽,與舊文檔完全不同,它的元標簽名為“ROBOTS”。

響應中標頭的示例:

<head>
  <meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
  <meta name="format-detection" content="telephone=no" />
  <meta name="viewport" content="initial-scale=1.0" />
</head>

我的問題是,您認為我如何克服這一障礙? 嘗試使用其他也可以解析javascript的庫,但是它沒有幫助,並且結果相同,也許我沒有正確使用它。

(我了解到,元標記機器人是為防止機器人而設計的,最初是為搜索引擎而設計的,我該如何繞過此行為?如何像常規的瀏覽器客戶端一樣工作?)

您沒有在回答中明確說明這一點,但是我假設向Jsoup發送的HTML與您的瀏覽器所看到的HTML不同。 在這種情況下,您可能需要設置用戶代理標頭,以便Jsoup看起來像您的瀏覽器。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM