繁体   English   中英

如何防止 Selenium 从网页下载某些“来源”?

[英]How do I prevent Selenium from downloading certain “Sources” from a web-page?

我正在使用Selenium进行一些网络抓取活动,我真的觉得有必要通过阻止特定文件类型或文件名的下载来限制数据消耗 我希望通过正则表达式过滤器阻止它们,例如:

  • *.MP4
  • *.css
  • *ads.google.com*

到目前为止,我还没有找到任何解决方案,我期待着JavaScript一个,如果可能的话......

我发现通过调解Chrome 扩展中间件可以实现该解决方案。

特别是,在background-scripts中,您可以使用onBeforeRequests来处理和过滤每个请求

chrome.webRequest.onBeforeRequest.addListener(
        function(info) {
            return {cancel: info.url.toLowerCase().includes('.css') || info.url.toLowerCase().includes('.gif') || info.url.toLowerCase().includes('.png') || info.url.toLowerCase().includes('.jpg') || info.url.toLowerCase().includes('.jpeg') || info.url.toLowerCase().includes('.webm') || info.url.toLowerCase().includes('.webp') ||info.url.toLowerCase().includes('.mp4') || info.url.toLowerCase().includes('allHeaderNonBlocking.js') || info.url.toLowerCase().includes('allHeader.js?') || info.url.toLowerCase().includes('/analytics.js') || info.url.toLowerCase().includes('googletagmanager') || info.url.toLowerCase().includes('calleo-livechat') || info.url.toLowerCase().includes('.svg') };
        },
        {
            urls: ["<all_urls>"]
        },
        ["blocking"]
    );

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM