cost 357 ms
是否需要對爬蟲進行測試?

[英]Testing for crawler is necessary or not?

爬蟲工具有必要測試嗎? 以何種方式? 我公司正在使用爬蟲工具(通過API和GUI)為客戶收集數據。 問題是有時目標網站的 GUI 有一些變化,導致爬蟲出錯或數據丟失。 現在老板想要確保每次發生變化時,他們都會立即知道(當然是通過 DevOps/CICD)。 但是,我不確定應該使用哪種方法進行測試。 ...

發送密鑰 selenium(蟒蛇)

[英]Sendkeys selenium (python)

我正在使用 selenium 和 python 抓取一個網站。這個網站有一個搜索引擎,可以讓你寫。 當我包含文本時,在按下回車鍵之前,我需要等待一段時間,否則它會進行搜索。 我想知道是否有辦法包含 fluentwait 而不是使用 time.sleep time.sleep() ...

如何在不物理滾動的情況下獲取 scrap web 整個頁面數據?

[英]How to get scrap web entire page data without physically scrolling?

我正在使用以下代碼提取該網頁的信息,但它只提取前 18 行信息。 我怎樣才能確保我正在加載 2063 行信息。 我已經嘗試了以下 4 段代碼來滾動瀏覽網頁,但它們都不起作用(我不確定是否需要這一步): 方法一: 方法二: 方法三: 方法四: ...

爬取價格給出null,HtmlAgilityPack(C#)

[英]crawling price gives null , HtmlAgilityPack (C#)

我試圖從一個帶有 webcrawler 的網站獲取股票數據作為一個業余項目。 我得到了工作鏈接,我得到了股票名稱,但我無法得到價格...我不知道如何處理 html 代碼。 這是我的代碼, 我得到了正確的名稱,但我真的不知道如何獲得 ChangeInPercent ....我將在下面的 html 代 ...

一個域的多個 CMS,具有不同的 URL 結構

[英]Multiple CMS for one domain and with different URL structures

我來到了一個由兩個 CMS 構建的站點:一部分是 magento(產品),另一部分是 WP(僅博客部分) Magento 的 URL 沒有斜杠,只有博客文章的 WP URL 有斜杠。 請注意,同一個域(不是子域)在兩個 CMS 上這會導致谷歌方面的任何索引問題嗎? 對這個案例有什么建議嗎? ...

將蜘蛛的名字添加到每一行日志中

[英]Add the spider's name to each line of log

我正在尋找一種方法,為 Scrapy 生成的每個日志加上生成它的蜘蛛的名稱作為前綴。 直到現在,我都是在一個循環中同步啟動每個爬蟲,所以很容易跟蹤哪個爬蟲生成了哪個日志。 但我最近重構了我的代碼,以便接受一個蜘蛛列表作為參數,或者通過CrawlerProcess() function 一次啟動它們。 ...

使用漂亮的湯刮桌子但沒有按要求顯示

[英]Scraping tables using beautiful soup but not displaying as desired

我一直在嘗試混合使用指南和 chatgpt 來抓取表格。 我一直在引入以下 html 代碼: 按照這些指南,我嘗試過的是 但這只給我 但我預期的 output 是 我不確定目前如何以其他方式進行。 有辦法使這項工作嗎? ...

如何使用 python 抓取網頁中列出的每個個人鏈接的數據?

[英]How do I scrape the data for each personal links listed in a webpage using python?

我即將在https://chambers.com/all-lawyers-asia-pacific-8獲取每位律師的詳細資料。 列出了大約 5k + 律師。 但他們的詳細信息列在網站的相關鏈接中。 我抓取單個 web 頁面沒有問題。 然而,我要花很長時間才能訪問每個律師資料頁面並逐個抓取它們。 有 ...

將隨機產品添加到購物車,嘗試訂購

[英]Add random product to cart, try to order

假設我有隨機的商店列表。 對於這家商店,我需要找到隨機產品(例如,基於“添加到購物車”按鈕),然后導航到購物車,輸入我的名字/姓氏、電子郵件等,並嘗試訂購產品而不購買(我只需要看看可以選擇什么樣的交付方式)。 問題: 商店沒有相同的用戶界面商店不在同一個“引擎”上工作有些商店有多個頁面(商店 1 - ...

如何通過 Selenium 獲取消息?

[英]How do I get a word through Selenium?

我想通過'Selenium'提取和使用下面代碼的紅色字母,所以請給我一些關於如何做的建議字母表在每次嘗試時隨機變化 <td> <input type="text" name="WKey" id="As_wkey" value="" maxlength="10" class=" ...

如何從 ul li 標簽中抓取數據,包括帶有 selenium python 的頁面鏈接?

[英]How to scrape data from ul li tag including links of pages with selenium python?

這是我要獲取數據的鏈接,我要在這個鏈接中獲取多頁數據https://scan.multichain.org/#/tokens 我想獲取上面所有33頁紅色間隔的數據,但我不知道如何點擊頁面以將數據返回到第2頁以及之后的更多頁。 但不為我工作 ...

Python中Playwright如何異步保存圖片?

[英]How to asynchronizely save image with Playwright in Python?

我正在使用 Playwright 實現一個 python web 抓取器,我有興趣在給定 URL 的情況下保存圖像(即每個 url 包含且僅包含相應的圖像)。 但是,我無法在 Playwright 中找到正確的異步 Python 方法來保存給定 url 的圖像。 通過在https://playwr ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM