繁体 English 中英

如何编写一个抓取多个网页的 scrapy 程序？

[英]How to write a scrapy program that scrapes multiple webpages?

原文 2020-05-17 13:58:46 0 1 python/ web-scraping/ scrapy

所以，我有一个项目可以从不同的网站上抓取工作数据

There are list of 2000 website Url ( each have different html structure ) in excel sheet, I have to pass these url in scrapy and scrape following data Title, Company, Country, Category, Description, Apply link, Date crawled, Date updated, Date创建的。

这将是两个步骤过程：

从 excel 表转到网站 url 并从页面上抓取所有作业链接。
从第一步抓取的抓取链接并抓取以下数据标题、公司、国家、类别、描述、应用链接、抓取日期、更新日期、创建日期。

我想问在 scrapy 中是否可能，如果是，我应该如何编写程序。

1 个解决方案

您能否确认所有 web 页面都处于 List-Detail 模式？ 这意味着，有一个[列表页面]（其中包含许多工作，可以通过页码访问），并且所有工作详细信息字段都在[工作详细信息页面]

如果是，我们可以定义 field_name 和 XPath map。 就像是：

网站 1：job_title：xpath1 类别：xpath2...
网站 2：job_title：xpath21 类别：xpath22

有很多情况我们需要考虑。

所有字段是否都直接存在于 HTML 中？ 还是有些网站使用 JSON 格式 ajax 请求？
所有字段是否都以相同的格式源存在（全部在 HTML 中或全部在 JSON 中）？ 某些字段可能存在于页面的 HTML 代码中，某些字段存在于 JSON 格式脚本中
是否所有网站都使用GET方法来请求[列表页面]？ 还是有些网站使用 POST？ 如果网站使用 POST，他们是否发布 JSON 格式的有效负载或键=值对形式的数据？

总之，这里很难说清楚。

使用 Scrapy 运行多个 Scrapes 并写入单独的 csv 文件

[英]Run multiple Scrapes using Scrapy AND write to seperate csv files

scrapy spider 多次抓取同一个数据

[英]scrapy spider scrapes same data multiple times

Scrapy：如何抓取从下拉列表中选择的多个网页

[英]Scrapy: How to scrape through multiple webpages selected from dropdown

Scrapy教程XPath代码多次刮擦表

[英]Scrapy tutorial xpath code scrapes tables multiple times

尝试编写一个程序以从Google抓取电影信息

[英]Trying to write a program that scrapes movie info from google

使用 Scrapy 从多个网页中抓取数据

[英]Scrape data from multiple webpages using Scrapy

Python Scrapy刮取错误的信息

[英]Python Scrapy scrapes wrong information

Scrapy with Splash Only Scrapes 1页

[英]Scrapy With Splash Only Scrapes 1 Page

Scrapy擦除数据但没有输出到文件

[英]Scrapy scrapes data but no output to file

为什么 Scrapy.response.follow() 在迭代中随机抓取链接列表？因为递归？如何解决？

[英]Why Scrapy.response.follow() scrapes list of links randomly in iteration? Because of Recursion? How to resolve?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用 Scrapy 运行多个 Scrapes 并写入单独的 csv 文件 scrapy spider 多次抓取同一个数据 Scrapy：如何抓取从下拉列表中选择的多个网页 Scrapy教程XPath代码多次刮擦表尝试编写一个程序以从Google抓取电影信息使用 Scrapy 从多个网页中抓取数据 Python Scrapy刮取错误的信息 Scrapy with Splash Only Scrapes 1页 Scrapy擦除数据但没有输出到文件为什么 Scrapy.response.follow() 在迭代中随机抓取链接列表？因为递归？如何解决？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM