簡體   English   中英

robots.txt解析器java

[英]robots.txt parser java

我想知道如何在java中解析robots.txt。

有代碼嗎?

Heritrix是一個用Java編寫的開源Web爬蟲。 通過他們的javadoc,我看到他們有一個實用程序類Robotstxt來解析robots.txt文件。

在SourceForge上還有jrobotx庫

(完全披露:我剝離了構成該庫的代碼。)

還有一個新版本的crawler-commons:

https://github.com/crawler-commons/crawler-commons

該庫旨在實現任何Web爬蟲的通用功能,這包括一個非常方便的robots.txt解析器

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM