[英]Testing for crawler is necessary or not?
爬蟲工具有必要測試嗎? 以何種方式? 我公司正在使用爬蟲工具(通過API和GUI)為客戶收集數據。 問題是有時目標網站的 GUI 有一些變化,導致爬蟲出錯或數據丟失。 現在老板想要確保每次發生變化時,他們都會立即知道(當然是通過 DevOps/CICD)。 但是,我不確定應該使用哪種方法進行測試。 ...
[英]Testing for crawler is necessary or not?
爬蟲工具有必要測試嗎? 以何種方式? 我公司正在使用爬蟲工具(通過API和GUI)為客戶收集數據。 問題是有時目標網站的 GUI 有一些變化,導致爬蟲出錯或數據丟失。 現在老板想要確保每次發生變化時,他們都會立即知道(當然是通過 DevOps/CICD)。 但是,我不確定應該使用哪種方法進行測試。 ...
[英]Spider error processing scrapy when trying to fetch any url
所以我是 Scrapy 的新手,當我嘗試在 scrapy shell 中獲取任何 url 時,我會收到此錯誤。 我在虛擬環境中安裝了 Scrapy。 ...
[英]How to crawl multiple pages and create a dataframe with parsing?
我想從一個網站加載多個頁面,並從不同的類中提取特定屬性,如下所示。 然后我想用來自多個頁面的解析信息創建一個 dataframe。 從多個頁面中提取 解析 至 DataFrame ...
[英]how to crawl vue.js based website with beautifulsoup?
我嘗試使用 beautifulsoup 抓取網站,但遇到了: <p data-v-57d17052 class="text text--gray70 text--subtitle2">Hello</p> 而且出於某種原因,這不允許我使用 beatifulsoup 的功能。 ...
[英]Sendkeys selenium (python)
我正在使用 selenium 和 python 抓取一個網站。這個網站有一個搜索引擎,可以讓你寫。 當我包含文本時,在按下回車鍵之前,我需要等待一段時間,否則它會進行搜索。 我想知道是否有辦法包含 fluentwait 而不是使用 time.sleep time.sleep() ...
[英]How to get scrap web entire page data without physically scrolling?
我正在使用以下代碼提取該網頁的信息,但它只提取前 18 行信息。 我怎樣才能確保我正在加載 2063 行信息。 我已經嘗試了以下 4 段代碼來滾動瀏覽網頁,但它們都不起作用(我不確定是否需要這一步): 方法一: 方法二: 方法三: 方法四: ...
[英]crawling price gives null , HtmlAgilityPack (C#)
我試圖從一個帶有 webcrawler 的網站獲取股票數據作為一個業余項目。 我得到了工作鏈接,我得到了股票名稱,但我無法得到價格...我不知道如何處理 html 代碼。 這是我的代碼, 我得到了正確的名稱,但我真的不知道如何獲得 ChangeInPercent ....我將在下面的 html 代 ...
[英]How to click a pdfviewer download button in shadowroot(open) with selenium Python
我正在訪問這個 url ( https://cissearch.kcc.gov.tw/System/Bulletin/View.aspx?BulletinSN=239928&pages=9957#pdfStart ) 和 selenium in python,我正在嘗試點擊下載pdfvie ...
[英]Multiple CMS for one domain and with different URL structures
我來到了一個由兩個 CMS 構建的站點:一部分是 magento(產品),另一部分是 WP(僅博客部分) Magento 的 URL 沒有斜杠,只有博客文章的 WP URL 有斜杠。 請注意,同一個域(不是子域)在兩個 CMS 上這會導致谷歌方面的任何索引問題嗎? 對這個案例有什么建議嗎? ...
[英]Add the spider's name to each line of log
我正在尋找一種方法,為 Scrapy 生成的每個日志加上生成它的蜘蛛的名稱作為前綴。 直到現在,我都是在一個循環中同步啟動每個爬蟲,所以很容易跟蹤哪個爬蟲生成了哪個日志。 但我最近重構了我的代碼,以便接受一個蜘蛛列表作為參數,或者通過CrawlerProcess() function 一次啟動它們。 ...
[英]Scraping tables using beautiful soup but not displaying as desired
我一直在嘗試混合使用指南和 chatgpt 來抓取表格。 我一直在引入以下 html 代碼: 按照這些指南,我嘗試過的是 但這只給我 但我預期的 output 是 我不確定目前如何以其他方式進行。 有辦法使這項工作嗎? ...
[英]Robots.txt file and Googlebot crawability
此robots.txt是否允許 Googlebot 抓取我的網站? ...
[英]How do I scrape the data for each personal links listed in a webpage using python?
我即將在https://chambers.com/all-lawyers-asia-pacific-8獲取每位律師的詳細資料。 列出了大約 5k + 律師。 但他們的詳細信息列在網站的相關鏈接中。 我抓取單個 web 頁面沒有問題。 然而,我要花很長時間才能訪問每個律師資料頁面並逐個抓取它們。 有 ...
[英]Add random product to cart, try to order
假設我有隨機的商店列表。 對於這家商店,我需要找到隨機產品(例如,基於“添加到購物車”按鈕),然后導航到購物車,輸入我的名字/姓氏、電子郵件等,並嘗試訂購產品而不購買(我只需要看看可以選擇什么樣的交付方式)。 問題: 商店沒有相同的用戶界面商店不在同一個“引擎”上工作有些商店有多個頁面(商店 1 - ...
[英]How do I get a word through Selenium?
我想通過'Selenium'提取和使用下面代碼的紅色字母,所以請給我一些關於如何做的建議字母表在每次嘗試時隨機變化 <td> <input type="text" name="WKey" id="As_wkey" value="" maxlength="10" class=" ...
[英]How to scrape data from ul li tag including links of pages with selenium python?
這是我要獲取數據的鏈接,我要在這個鏈接中獲取多頁數據https://scan.multichain.org/#/tokens 我想獲取上面所有33頁紅色間隔的數據,但我不知道如何點擊頁面以將數據返回到第2頁以及之后的更多頁。 但不為我工作 ...
[英]How to asynchronizely save image with Playwright in Python?
我正在使用 Playwright 實現一個 python web 抓取器,我有興趣在給定 URL 的情況下保存圖像(即每個 url 包含且僅包含相應的圖像)。 但是,我無法在 Playwright 中找到正確的異步 Python 方法來保存給定 url 的圖像。 通過在https://playwr ...
[英]How can I skip 'Connection aborted.', OSError(0, 'Error') in Python?
當我運行這段代碼時,第 2 行經常出現錯誤。 有什么辦法可以跳過這個錯誤並轉到 time.sleep 行嗎? 先感謝您! ...
[英]I want to get text from "aria-label" by python selenium
輸出<selenium.webdriver.remote.webelement.WebElement (session="867a6f4433baacd665edd311671faa81", element="69d53b22-5d2e-4e1a-8f55-682affc043b1")> ...