How do I prevent Selenium from downloading certain “Sources” from a web-page?

Question

I am using Selenium for some web-scraping activities, and I really feel the need to limit data consumption by blocking specific file types or filenames from being downloaded. I wish to block them by regex filters, like:

*.MP4
*.css
*ads.google.com*

So far I have not found any solutions and I am looking forward for a JavaScript one, if possible...

Answer 1

I have found the solution to be achievable by mediating a Chrome Extension middleware.

Particularily, in background-scripts , you could use onBeforeRequests to handle and filter each single request

chrome.webRequest.onBeforeRequest.addListener(
        function(info) {
            return {cancel: info.url.toLowerCase().includes('.css') || info.url.toLowerCase().includes('.gif') || info.url.toLowerCase().includes('.png') || info.url.toLowerCase().includes('.jpg') || info.url.toLowerCase().includes('.jpeg') || info.url.toLowerCase().includes('.webm') || info.url.toLowerCase().includes('.webp') ||info.url.toLowerCase().includes('.mp4') || info.url.toLowerCase().includes('allHeaderNonBlocking.js') || info.url.toLowerCase().includes('allHeader.js?') || info.url.toLowerCase().includes('/analytics.js') || info.url.toLowerCase().includes('googletagmanager') || info.url.toLowerCase().includes('calleo-livechat') || info.url.toLowerCase().includes('.svg') };
        },
        {
            urls: ["<all_urls>"]
        },
        ["blocking"]
    );

How do I prevent Selenium from downloading certain “Sources” from a web-page?

Question

1 answers

solution1
0 2020-10-11 13:49:18

How do I prevent Selenium from downloading certain “Sources” from a web-page?

Question

1 answers

solution1 0 2020-10-11 13:49:18

solution1
0 2020-10-11 13:49:18