[英]Prevent bots from crawling dynamic javascript files
我需要防止漫游器抓取.js
文件。 如您所知,Google能夠抓取.js
文件。 只有一個.js
文件,但是它將隨着新的部署和更新而改變。
例如:
<script type="text/javascript" src="/7c2af7d5829e81965805cc932aeacdea8049891f.js?js_resource=true"></script>
我想確保,由於我不知道如何驗證這一點,因此這是正確的:
// robots.txt
Disallow: /*.js$
此外,如果通過CDN提供.js
文件,是否也一樣?
robot.txt文件不支持通配符和正則表達式。 來自http://www.robotstxt.org :
還要注意,User-agent或Disallow行均不支持通配符和正則表達式。 用戶代理字段中的“ *”是一個特殊值,表示“任何機械手”。 具體來說,您不能使用“ User-agent: bot ”,“ Disallow:/ tmp / *”或“ Disallow:* .gif”之類的行。
相反,您應該將JavaScript文件移動到robots文件中不允許的目錄中:
User-agent: *
Disallow: /hidden-javascript/
# robots.txt
Disallow: /*.js?js_resource
這很好。 您可以在Google Search Console AKA Google網站管理員工具中測試robots.txt。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.