簡體   English   中英

如何為LWP :: RobotUA指定自己的robots.txt規則

[英]Howto specify own robots.txt rules for LWP::RobotUA

我編寫了一個腳本,使用LWP :: RobotUA檢查我自己的網站。 我希望避免經常請求我的robots.txt。

LWP :: RobotUA的rules參數應該允許我指定這些參數,但是我不理解如何為“允許所有頁面”傳遞什么。

my $ua = LWP::RobotUA->new(agent=>'my-robot/0.1', from=>'me@foo.com', rules=> ??? );

LWP :: RobotUA是添加了robots.txt支持的LWP :: UserAgent。 如果您不想請求robots.txt ,則只需使用LWP :: UserAgent。

或者,將LWP :: RobotUA子類化,並覆蓋simple_request方法,並simple_request robots.txt和規則處理。

經過更多研究,我認為提供機器人規則的預期方法是將WWW :: RobotRules子類化。

{
    package WWW::NoRules;
    use vars qw(@ISA);
    use WWW::RobotRules;
    @ISA = qw(WWW::RobotRules::InCore);

    sub allowed {
        return 1;
    }
}

my $ua = LWP::RobotUA->new(agent=>'my-robot/0.1', from=>'me@foo.com', rules=>WWW::NoRules->new);

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM