簡體   English   中英

如何使用php識別機器人?

[英]How to recognize bots with php?

我正在為我的用戶構建統計數據,並且不希望計算機器人的訪問量。

現在我有一個基本的 php,每次調用頁面時 mysql 都會增加 1。

但機器人也被添加到計數中。

有沒有人能想到辦法?

主要是那些把事情搞砸的主要因素。 谷歌、雅虎、MSN等

您可以檢查用戶代理字符串,空字符串或包含'robot'、'spider'、'crawler'、'curl'的字符串很可能是robots。

preg_match('/robot|spider|crawler|curl|^$/i', $_SERVER['HTTP_USER_AGENT']));

您應該按用戶代理字符串進行過濾。 您可以在此處找到機器人提供的大約 300 個常見用戶代理的列表: http ://www.robotstxt.org/db.html 在運行 SQL 語句之前運行該列表並忽略機器人用戶代理應該可以解決您的問題用於所有實際目的。

如果您甚至不希望搜索引擎訪問該頁面,請使用基本的robots.txt文件來阻止它們。

我們還有一類似用途的情況下給自己,並選擇一個我們最近發現非常有幫助的是UASParser類user-agent-string.info

它是一個 PHP 類,它提取最新的用戶代理字符串定義集並在本地緩存它們。 該類可以配置為根據您認為合適的頻率或很少提取定義。 像這樣自動獲取它們意味着您不必關注機器人用戶代理的各種變化或市場上即將推出的新產品,盡管您依賴 UAS.info 來准確地做到這一點。

當類被調用時,它解析當前訪問者的用戶代理並返回一個關聯數組,分解組成部分,例如

Array
(
    [typ] => browser
    [ua_family] => Firefox
    [ua_name] => Firefox 3.0.8
    [ua_url] => http://www.mozilla.org/products/firefox/
    [ua_company] => Mozilla Foundation
    ........
    [os_company] => Microsoft Corporation.
    [os_company_url] => http://www.microsoft.com/
    [os_icon] => windowsxp.png
)

當 UA 被識別為可能屬於人類訪問者時,字段typ設置為browser ,在這種情況下,您可以更新您的統計信息。

這里有幾個警告:

  • 您依賴 UAS.info 來提供准確和最新的用戶代理字符串
  • 像谷歌和雅虎這樣的機器人在他們的用戶代理字符串中聲明自己,但這種方法仍然會計算偽裝成人類訪問者的機器人的訪問(發送欺騙性的 UA)
  • 正如@amdfan上面提到的,通過 robots.txt 阻止機器人應該可以阻止大多數機器人訪問您的頁面。 如果您需要將內容編入索引但不增加統計信息,那么 robots.txt 方法將不是一個現實的選擇

在增加頁面查看計數之前檢查用戶代理,但請記住,這可能會被欺騙。 PHP 在$_SERVER['HTTP_USER_AGENT']公開用戶代理,假設 Web 服務器向其提供此信息。 有關$_SERVER更多信息,請訪問 http://www.php.net/manual/en/reserved.variables.server.php

您可以在http://www.user-agents.org找到用戶代理列表; 谷歌搜索還將提供屬於主要供應商的名稱。 第三個可能的來源是您的 Web 服務器的訪問日志(如果您可以聚合它們)。

您是否嘗試過通過用戶代理信息來識別他們? 一個簡單的谷歌搜索應該給你谷歌等使用的用戶代理。

當然,這不是萬無一失的,但是大公司的大多數爬蟲都提供了一個獨特的用戶代理。

編輯:假設您不想限制機器人訪問,但只是不將其訪問計入您的 statistc。

100% 工作機器人檢測器。 它正在我的網站上檢測機器人、爬蟲、蜘蛛和復印機。

function isBotDetected() {

    if ( preg_match('/abacho|accona|AddThis|AdsBot|ahoy|AhrefsBot|AISearchBot|alexa|altavista|anthill|appie|applebot|arale|araneo|AraybOt|ariadne|arks|aspseek|ATN_Worldwide|Atomz|baiduspider|baidu|bbot|bingbot|bing|Bjaaland|BlackWidow|BotLink|bot|boxseabot|bspider|calif|CCBot|ChinaClaw|christcrawler|CMC\/0\.01|combine|confuzzledbot|contaxe|CoolBot|cosmos|crawler|crawlpaper|crawl|curl|cusco|cyberspyder|cydralspider|dataprovider|digger|DIIbot|DotBot|downloadexpress|DragonBot|DuckDuckBot|dwcp|EasouSpider|ebiness|ecollector|elfinbot|esculapio|ESI|esther|eStyle|Ezooms|facebookexternalhit|facebook|facebot|fastcrawler|FatBot|FDSE|FELIX IDE|fetch|fido|find|Firefly|fouineur|Freecrawl|froogle|gammaSpider|gazz|gcreep|geona|Getterrobo-Plus|get|girafabot|golem|googlebot|\-google|grabber|GrabNet|griffon|Gromit|gulliver|gulper|hambot|havIndex|hotwired|htdig|HTTrack|ia_archiver|iajabot|IDBot|Informant|InfoSeek|InfoSpiders|INGRID\/0\.1|inktomi|inspectorwww|Internet Cruiser Robot|irobot|Iron33|JBot|jcrawler|Jeeves|jobo|KDD\-Explorer|KIT\-Fireball|ko_yappo_robot|label\-grabber|larbin|legs|libwww-perl|linkedin|Linkidator|linkwalker|Lockon|logo_gif_crawler|Lycos|m2e|majesticsEO|marvin|mattie|mediafox|mediapartners|MerzScope|MindCrawler|MJ12bot|mod_pagespeed|moget|Motor|msnbot|muncher|muninn|MuscatFerret|MwdSearch|NationalDirectory|naverbot|NEC\-MeshExplorer|NetcraftSurveyAgent|NetScoop|NetSeer|newscan\-online|nil|none|Nutch|ObjectsSearch|Occam|openstat.ru\/Bot|packrat|pageboy|ParaSite|patric|pegasus|perlcrawler|phpdig|piltdownman|Pimptrain|pingdom|pinterest|pjspider|PlumtreeWebAccessor|PortalBSpider|psbot|rambler|Raven|RHCS|RixBot|roadrunner|Robbie|robi|RoboCrawl|robofox|Scooter|Scrubby|Search\-AU|searchprocess|search|SemrushBot|Senrigan|seznambot|Shagseeker|sharp\-info\-agent|sift|SimBot|Site Valet|SiteSucker|skymob|SLCrawler\/2\.0|slurp|snooper|solbot|speedy|spider_monkey|SpiderBot\/1\.0|spiderline|spider|suke|tach_bw|TechBOT|TechnoratiSnoop|templeton|teoma|titin|topiclink|twitterbot|twitter|UdmSearch|Ukonline|UnwindFetchor|URL_Spider_SQL|urlck|urlresolver|Valkyrie libwww\-perl|verticrawl|Victoria|void\-bot|Voyager|VWbot_K|wapspider|WebBandit\/1\.0|webcatcher|WebCopier|WebFindBot|WebLeacher|WebMechanic|WebMoose|webquest|webreaper|webspider|webs|WebWalker|WebZip|wget|whowhere|winona|wlm|WOLP|woriobot|WWWC|XGET|xing|yahoo|YandexBot|YandexMobileBot|yandex|yeti|Zeus/i', $_SERVER['HTTP_USER_AGENT'])
    ) {
        return true; // 'Above given bots detected'
    }

    return false;

} // End :: isBotDetected()

這個功能對我有用,我在https://www.cult-f.net/detect-crawlers-with-php/網站上找到:

<?php
  $crawlers = array(
    'Google'=>'Google',
    'MSN' => 'msnbot',
    'Rambler'=>'Rambler',
    'Yahoo'=> 'Yahoo',
    'AbachoBOT'=> 'AbachoBOT',
    'accoona'=> 'Accoona',
    'AcoiRobot'=> 'AcoiRobot',
    'ASPSeek'=> 'ASPSeek',
    'CrocCrawler'=> 'CrocCrawler',
    'Dumbot'=> 'Dumbot',
    'FAST-WebCrawler'=> 'FAST-WebCrawler',
    'GeonaBot'=> 'GeonaBot',
    'Gigabot'=> 'Gigabot',
    'Lycos spider'=> 'Lycos',
    'MSRBOT'=> 'MSRBOT',
    'Altavista robot'=> 'Scooter',
    'AltaVista robot'=> 'Altavista',
    'ID-Search Bot'=> 'IDBot',
    'eStyle Bot'=> 'eStyle',
    'Scrubby robot'=> 'Scrubby',
    );
 
function crawlerDetect($USER_AGENT)
{
    // to get crawlers string used in function uncomment it
    // it is better to save it in string than use implode every time
    // global $crawlers
    // $crawlers_agents = implode('|',$crawlers);
    $crawlers_agents = 'Google|msnbot|Rambler|Yahoo|AbachoBOT|accoona|AcioRobot|ASPSeek|CocoCrawler|Dumbot|FAST-WebCrawler|GeonaBot|Gigabot|Lycos|MSRBOT|Scooter|AltaVista|IDBot|eStyle|Scrubby';
 
    if ( strpos($crawlers_agents , $USER_AGENT) === false )
       return false;
    // crawler detected
    // you can use it to return its name
    /*
    else {
       return array_search($USER_AGENT, $crawlers);
    }
    */
}
 
// example
 
$crawler = crawlerDetect($_SERVER['HTTP_USER_AGENT']);
 
if ($crawler )
{
   // it is crawler, it's name in $crawler variable
}
else
{
   // usual visitor
}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM