標簽[screen-scraping] - 堆棧內存溢出

當每個餐廳鏈接的 href 屬性設置為“#”時，如何從 zaubee.com 導航和提取餐廳詳細信息？

[英]How can I navigate and extract restaurant details from zaubee.com when the href attribute is set to "#" for each restaurant link?

當 scrapy 中的 href 屬性設置為“#”時，如何抓取 zaubee.com 網站以從每個餐廳的頁面中提取業務詳細信息？我目前正在從事 web 抓取項目，該項目將從zaubee.com網站收集公司信息。但是，每個餐廳鏈接的 href 參數都設置為# ，這使我無法訪問各個餐廳網站並收集所 ...

無法使用 Selenium 在無頭模式下運行 Chrome

[英]Can't run Chrome in headless mode using Selenium

所以首先是我的代碼：當我運行它時，出現奇怪的長錯誤，最后是：但是，如果我注釋掉“chrome_options.add_argument('--headless')”，我的代碼工作得很好。這里有什么問題？我想問題是網站不允許我使用無頭模式，我該如何解決？我希望我的程序以無頭模式運行，但我受 ...

我正在嘗試從亞特蘭大聯儲屏幕上抓取日期和 GDPnow 數字

[英]I am trying to screen scrape the Date and GDPnow number from the Atlanta Fed

https://www.atlantafed.org/cqer/research/gdpnow 我正在嘗試用亞特蘭大聯儲的日期來篩選當前的 GDPnow 數字。目前“最新估計：3.5%——2023 年 1 月 20 日。” 然后我想獲取 GDP 數字和日期並將其添加到我現有的 DF 中。 ...

Selenium：select如何在一個動態變化的頁面中顯示每張圖片？

[英]Selenium: How to select each picture in a dynamically changing page?

我的情況如下：我正在編寫一個機器人來自動滾動瀏覽 Instagram 探索頁面。我想為給定主題標簽出現的前 100 張圖片點贊。我正在使用：Selenium、python、鉻。我的問題如下：每當我滾動時，新帖子“出現”而舊帖子“消失”。我正在使用這樣的 xpath：//article[ro ...

Chromedriver 在 Colab 中意外退出

[英]Chromedriver unexpectedly exited in Colab

在過去的 4 個月里，我一直在 google colab 中使用 chrome 驅動程序。我的代碼沒有任何變化，但 colab 突然開始拋出錯誤。錯誤消息： WebDriverException: Message: Service chromedriver unexpectedly exited ...

來自 hover 彈出窗口的新抓取表數據 Selenium 和 Python

[英]New scrape table data from a hover popup with Selenium and Python

幾年前我有這個 Selenium hover 刮擦工作，我記得這是對 select 正確的 hover 表格元素的挑戰，它只顯示在 hover 上。該網站經歷了一次完整的樣式大修（看起來像 Tailwind CSS），甚至盡管我使用了帶強制 hover state 的檢查器，但現在 Seleniu ...

亞馬遜抓取 - 抓取有時有效

[英]Amazon Scraping - Scraping works sometimes

我出於教育目的從亞馬遜抓取數據，我在使用 cookies 和 antibot 時遇到了一些問題。我設法抓取了數據，但有時 cookies 不會出現在響應中，或者反機器人標記了我。我已經嘗試使用這樣的隨機標題列表：headers_list = [{ "User-Agent": "Mozil ...

使用 Python 從網站抓取數據/表格

[英]Data/Table Scraping from Website using Python

我正在嘗試從網站上的表格中抓取數據。但是，我不斷遇到“ValueError：無法設置列不匹配的行”。設置是：在這里，我能夠創建一個空的 dataframe，其標題與表格相同（我做了 iloc，因為末尾有一些重復的列）。現在，我想通過以下方式填寫空的 dataframe：但是，如前所述，我在 ...

如何抓取不是 https 的 href 的點擊鏈接？

[英]How to scrape the on click link of an href that's not https?

第一次嘗試 Python 和抓取 - 在下面的練習中，我抓取一個頁面並打印找到的所有 href，盡管其中一些不是 https。在后一種情況下，我如何抓取實際的 https 我會點擊？我嘗試過但未能弄清楚如何與“onLinkClick”事件進行交互。謝謝！ ...

如何在 PHP 中創建一個簡單的屏幕抓取工具

[英]How to create a simple screen scraper in PHP

我正在嘗試創建一個簡單的屏幕抓取工具來獲取特定商品的價格。這是我想從中獲取價格的產品示例： https://www.flanco.ro/telefon-mobil-apple-iphone-14-5g-128gb-purple.html 這是我感興趣的 html 代碼的一部分：在此處輸入圖片描述 ...

如何在 pyscript 中從 Github repo 安裝模塊？

[英]How to install module from Github repo in pyscript?

我想在我的 pyscript 中從 github repo 導入模塊。從這個命令鏈接 - 這樣我就可以在我的 pyscript 代碼中使用這段代碼- ...

Web抓取時如何繞過驗證碼

[英]How to bypass Captcha while Web Scraping

我正在嘗試使用 Selenium 從該站點抓取汽車詳細信息： https://www.autoscout24.ch/de/autos/alle-marken?vehtyp=10 大約每 30 頁我必須驗證我不是機器人，即使我已經在我的代碼中包含：有什么辦法可以克服這個問題嗎？ ...

我如何 go 從 chrome 瀏覽器中抓取一些數據？

[英]How do I go about scraping some data from chrome browser?

我試圖抓取的網頁只能在登錄后才能看到，因此使用直接 url 將無法正常工作。我需要在使用 chrome 瀏覽器登錄時抓取數據。然后我需要從中獲取元素的值我嘗試使用以下代碼。 ...

Python 使用 Webbot，不確定如何單擊 chrome PDF 查看器的按鈕

[英]Python with Webbot, not sure how to click the button of the chrome PDF viewer

我有一個 Python 應用程序使用 Webbot 瀏覽網站。在最后一頁上，它呈現 PDF 並將其流式傳輸到瀏覽器（沒有端點 URL）。這顯示在 chrome PDF 查看器中，但我需要下載它。我不確定如何 go 在這里激活下載或通過 request.get() 的正常方法獲取此文件 URL ...

使用 Selenium、Python 和 XPATH 嘗試從網站抓取圖像 url，不起作用

[英]Using Selenium, Python and XPATH to try to grab image urls from a website, doesn't work

這些似乎都不起作用，瀏覽器只是關閉或只是打印“NONE” 知道它是錯誤的 xpaths 還是發生了什么？非常感謝，提前這是包含圖像的 HTML： ` ` 這是我的腳本： ` ` 嘗試獲取 url，但未成功 ...

從網站上抓取 GIF 網址

[英]Scraping GIF url from Websites

我對網絡抓取和嘗試從網站抓取 gif url 非常陌生。例如，在 gifer.com 上搜索“微笑”的 gif，然后下載列出的所有 gif 的 url。下面是我想從中提取視頻的 src 元素的源示例（在本例中為https://i.gifer.com/ON0.mp4 ）。有成千上萬這樣的結果，我 ...

在 BeautifulSoup (bs4) 的 NavigableString 中獲取文本

[英]Fetching Text in NavigableString in BeautifulSoup (bs4)

我正在嘗試解析 rss 源，為此我需要獲取圖像 url。我遇到的一個問題是，有時圖像 url 不是直接隨標簽一起提供的，而是用“src =”https://xxxxxxxxx“”放在描述標簽內原始來源是：因為它是一個標簽，我可以使用 findAll('content:encoded') 並且我 ...

無需登錄即可訪問 Instagram 用戶數據

[英]Access Instagram user data without logging in

我想獲取此 API 返回的數據： https://www.instagram.com/api/v1/users/web_profile_info/?username=kateannedesigns 當我們搜索用戶時，我們甚至可以在不登錄的情況下訪問基本數據，但是當我使用這個實際獲取數據的 api ...

為 CSV 中的多個 URL 循環運行 Selenium 命令（Python）

[英]Run Selenium Commands in a loop for multiple URLs in CSV (Python)

我是 Python 的新手，我正在嘗試在 Selenium 的幫助下抓取 Twitter（請參見下面的代碼）。我有一個保存在 csv 中的網站列表，我編寫的代碼應該一個一個地瀏覽這些網站，滾動瀏覽它們並在每個網站上抓取特定信息。最后，所有信息最好保存在 csv 中。我能夠讓我的代碼的 Sel ...

需要使用 VBA / Selenium 在動態生成的網頁中向下滾動

[英]Need to scroll down in Dynamically Generated Webpage using VBA / Selenium

我正在使用 Selenium 來抓取動態生成的網頁。訣竅是在我手動向下滾動頁面之前，網頁似乎沒有生成。如果我在打開頁面時搜索當前屏幕下方的對象，我會收到一條錯誤消息，指出 object（按類或按 XPath）不存在。如果我檢查多次重復 class 的出現次數，它只返回總數的一小部分。但是，如 ...