[英]parsing html using Jsoup - returned document with robots meta tag
我的問題是,當我使用jsoup lib解析特定的URL時,直到一天我的解析已損壞,這一直很棒,返回的文檔有一些標簽,與舊文檔完全不同,它的元標簽名為“ROBOTS”。
響應中標頭的示例:
<head>
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
<meta name="format-detection" content="telephone=no" />
<meta name="viewport" content="initial-scale=1.0" />
</head>
我的問題是,您認為我如何克服這一障礙? 嘗試使用其他也可以解析javascript的庫,但是它沒有幫助,並且結果相同,也許我沒有正確使用它。
(我了解到,元標記機器人是為防止機器人而設計的,最初是為搜索引擎而設計的,我該如何繞過此行為?如何像常規的瀏覽器客戶端一樣工作?)
您沒有在回答中明確說明這一點,但是我假設向Jsoup發送的HTML與您的瀏覽器所看到的HTML不同。 在這種情況下,您可能需要設置用戶代理標頭,以便Jsoup看起來像您的瀏覽器。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.