簡體   English   中英

Cloudflare反向代理后面的Apache2-“ URL不可用於Google”獲取失敗:抓取異常

[英]Apache2 behind Cloudflare reverse proxy - “URL not available to google” fetch failed: crawl anomaly

在關閉所有防火牆設置的情況下,Google無法在Cloudflare反向代理后面抓取我的WordPress網站。 這很不好-我需要它能夠爬行。

我將WordPress托管在子域(blog.domain.com)上,並使用Cloudflare反向代理將WordPress內容傳遞到子文件夾(domain.com/resources)。 主域托管在AWS Elastic Beanstalk中,並通過反向代理將對博客的請求定向到wordpress服務器,並按預期工作。 瀏覽器可以通過代理完美地加載內容,唯一出現問題的代理是Googlebot。 抓取/訪問blog.domain時不會阻止Google-僅當通過反向代理(domain.com/resources)訪問內容時才阻止Google-這很糟糕,我不希望它被阻止。 所有.htaccess和robots.txt文件都允許所有漫游器流量,並且反向代理關閉了所有防火牆設置。 是什么阻止了Google通過反向代理訪問我的博客?

Apache2 .htaccess:

# BEGIN WordPress
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>

# END WordPress

Apache2 robots.txt:

User-agent: *
Allow: /

我正在使用庫存Apache2配置設置。

預期結果是googlebot將不會被阻止/無法訪問我在使用反向代理的域子文件夾(domain.com/resources)上的頁面,最終將被google搜索引擎索引。

嘗試將Cloudflare IP訪問規則中的 Google AS編號列入白名單。 這是我發現的一些AS編號,屬於Google。 雖然不確定其中哪一個用於爬蟲。 請注意,如果您將整個AS號列入白名單,如果該AS號中的任何IP地址被證明是惡意的(例如,使用Google Cloud Compute實例發起漫游器攻擊的攻擊者等),Cloudflare將無法再保護您的網站,因為他們會假設您要允許這些流量到達您的網站。

Google ASN
https://ipinfo.io/AS396982
https://ipinfo.io/AS395973
https://ipinfo.io/AS36385
https://ipinfo.io/AS19527
https://ipinfo.io/AS16591
https://ipinfo.io/AS394699
https://ipinfo.io/AS36492
https://ipinfo.io/AS41264
https://ipinfo.io/AS36040
https://ipinfo.io/AS22577
https://ipinfo.io/AS45566
https://ipinfo.io/AS36384
https://ipinfo.io/AS15169

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM