標簽[web-crawler] - 堆棧內存溢出

[英]Testing for crawler is necessary or not?

爬蟲工具有必要測試嗎？以何種方式？我公司正在使用爬蟲工具（通過API和GUI）為客戶收集數據。問題是有時目標網站的 GUI 有一些變化，導致爬蟲出錯或數據丟失。現在老板想要確保每次發生變化時，他們都會立即知道（當然是通過 DevOps/CICD）。但是，我不確定應該使用哪種方法進行測試。 ...

試圖獲取任何 url 時蜘蛛錯誤處理 scrapy

[英]Spider error processing scrapy when trying to fetch any url

所以我是 Scrapy 的新手，當我嘗試在 scrapy shell 中獲取任何 url 時，我會收到此錯誤。我在虛擬環境中安裝了 Scrapy。 ...

如何爬取多個頁面並解析創建一個dataframe？

[英]How to crawl multiple pages and create a dataframe with parsing?

我想從一個網站加載多個頁面，並從不同的類中提取特定屬性，如下所示。然后我想用來自多個頁面的解析信息創建一個 dataframe。從多個頁面中提取解析至 DataFrame ...

如何用beautifulsoup爬取基於vue.js的網站？

[英]how to crawl vue.js based website with beautifulsoup?

我嘗試使用 beautifulsoup 抓取網站，但遇到了： <p data-v-57d17052 class="text text--gray70 text--subtitle2">Hello</p> 而且出於某種原因，這不允許我使用 beatifulsoup 的功能。 ...

發送密鑰 selenium（蟒蛇）

[英]Sendkeys selenium (python)

我正在使用 selenium 和 python 抓取一個網站。這個網站有一個搜索引擎，可以讓你寫。當我包含文本時，在按下回車鍵之前，我需要等待一段時間，否則它會進行搜索。我想知道是否有辦法包含 fluentwait 而不是使用 time.sleep time.sleep() ...

如何在不物理滾動的情況下獲取 scrap web 整個頁面數據？

[英]How to get scrap web entire page data without physically scrolling?

我正在使用以下代碼提取該網頁的信息，但它只提取前 18 行信息。我怎樣才能確保我正在加載 2063 行信息。我已經嘗試了以下 4 段代碼來滾動瀏覽網頁，但它們都不起作用（我不確定是否需要這一步）：方法一：方法二：方法三：方法四： ...

爬取價格給出null，HtmlAgilityPack(C#)

[英]crawling price gives null , HtmlAgilityPack (C#)

我試圖從一個帶有 webcrawler 的網站獲取股票數據作為一個業余項目。我得到了工作鏈接，我得到了股票名稱，但我無法得到價格...我不知道如何處理 html 代碼。這是我的代碼，我得到了正確的名稱，但我真的不知道如何獲得 ChangeInPercent ....我將在下面的 html 代 ...

如何使用 selenium 在 shadowroot(open) 中單擊 pdfviewer 下載按鈕 Python

[英]How to click a pdfviewer download button in shadowroot(open) with selenium Python

我正在訪問這個 url ( https://cissearch.kcc.gov.tw/System/Bulletin/View.aspx?BulletinSN=239928&pages=9957#pdfStart ) 和 selenium in python，我正在嘗試點擊下載pdfvie ...

一個域的多個 CMS，具有不同的 URL 結構

[英]Multiple CMS for one domain and with different URL structures

我來到了一個由兩個 CMS 構建的站點：一部分是 magento（產品），另一部分是 WP（僅博客部分） Magento 的 URL 沒有斜杠，只有博客文章的 WP URL 有斜杠。請注意，同一個域（不是子域）在兩個 CMS 上這會導致谷歌方面的任何索引問題嗎？對這個案例有什么建議嗎？ ...

將蜘蛛的名字添加到每一行日志中

[英]Add the spider's name to each line of log

我正在尋找一種方法，為 Scrapy 生成的每個日志加上生成它的蜘蛛的名稱作為前綴。直到現在，我都是在一個循環中同步啟動每個爬蟲，所以很容易跟蹤哪個爬蟲生成了哪個日志。但我最近重構了我的代碼，以便接受一個蜘蛛列表作為參數，或者通過CrawlerProcess() function 一次啟動它們。 ...

使用漂亮的湯刮桌子但沒有按要求顯示

[英]Scraping tables using beautiful soup but not displaying as desired

我一直在嘗試混合使用指南和 chatgpt 來抓取表格。我一直在引入以下 html 代碼：按照這些指南，我嘗試過的是但這只給我但我預期的 output 是我不確定目前如何以其他方式進行。有辦法使這項工作嗎？ ...

Robots.txt 文件和 Googlebot 可抓取性

[英]Robots.txt file and Googlebot crawability

此robots.txt是否允許 Googlebot 抓取我的網站？ ...

如何使用 python 抓取網頁中列出的每個個人鏈接的數據？

[英]How do I scrape the data for each personal links listed in a webpage using python?

我即將在https://chambers.com/all-lawyers-asia-pacific-8獲取每位律師的詳細資料。列出了大約 5k + 律師。但他們的詳細信息列在網站的相關鏈接中。我抓取單個 web 頁面沒有問題。然而，我要花很長時間才能訪問每個律師資料頁面並逐個抓取它們。有 ...

將隨機產品添加到購物車，嘗試訂購

[英]Add random product to cart, try to order

假設我有隨機的商店列表。對於這家商店，我需要找到隨機產品（例如，基於“添加到購物車”按鈕），然后導航到購物車，輸入我的名字/姓氏、電子郵件等，並嘗試訂購產品而不購買（我只需要看看可以選擇什么樣的交付方式）。問題：商店沒有相同的用戶界面商店不在同一個“引擎”上工作有些商店有多個頁面（商店 1 - ...

Scrapy 循環蜘蛛

[英]Scrapy loop over spider

我想像這樣遍歷我的scrapy.Spider 然而，這會產生使用為i=0執行腳本但比掛起在i=1 ...

如何通過 Selenium 獲取消息？

[英]How do I get a word through Selenium?

我想通過'Selenium'提取和使用下面代碼的紅色字母，所以請給我一些關於如何做的建議字母表在每次嘗試時隨機變化 <td> <input type="text" name="WKey" id="As_wkey" value="" maxlength="10" class=" ...

如何從 ul li 標簽中抓取數據，包括帶有 selenium python 的頁面鏈接？

[英]How to scrape data from ul li tag including links of pages with selenium python?

這是我要獲取數據的鏈接，我要在這個鏈接中獲取多頁數據https://scan.multichain.org/#/tokens 我想獲取上面所有33頁紅色間隔的數據，但我不知道如何點擊頁面以將數據返回到第2頁以及之后的更多頁。但不為我工作 ...

Python中Playwright如何異步保存圖片？

[英]How to asynchronizely save image with Playwright in Python?

我正在使用 Playwright 實現一個 python web 抓取器，我有興趣在給定 URL 的情況下保存圖像（即每個 url 包含且僅包含相應的圖像）。但是，我無法在 Playwright 中找到正確的異步 Python 方法來保存給定 url 的圖像。通過在https://playwr ...

如何在 Python 中跳過“Connection aborted.”、OSError(0, 'Error')？

[英]How can I skip 'Connection aborted.', OSError(0, 'Error') in Python?

當我運行這段代碼時，第 2 行經常出現錯誤。有什么辦法可以跳過這個錯誤並轉到 time.sleep 行嗎？先感謝您！ ...

我想通過 python selenium 從“aria-label”獲取文本

[英]I want to get text from "aria-label" by python selenium

輸出<selenium.webdriver.remote.webelement.WebElement (session="867a6f4433baacd665edd311671faa81", element="69d53b22-5d2e-4e1a-8f55-682affc043b1")&gt ...