繁体   English   中英

如何编写一个抓取多个网页的 scrapy 程序?

[英]How to write a scrapy program that scrapes multiple webpages?

所以,我有一个项目可以从不同的网站上抓取工作数据

There are list of 2000 website Url ( each have different html structure ) in excel sheet, I have to pass these url in scrapy and scrape following data Title, Company, Country, Category, Description, Apply link, Date crawled, Date updated, Date创建的。

这将是两个步骤过程:

  1. 从 excel 表转到网站 url 并从页面上抓取所有作业链接。

  2. 从第一步抓取的抓取链接并抓取以下数据标题、公司、国家、类别、描述、应用链接、抓取日期、更新日期、创建日期。

我想问在 scrapy 中是否可能,如果是,我应该如何编写程序。

您能否确认所有 web 页面都处于 List-Detail 模式? 这意味着,有一个[列表页面](其中包含许多工作,可以通过页码访问),并且所有工作详细信息字段都在[工作详细信息页面]

如果是,我们可以定义 field_name 和 XPath map。 就像是:

  1. 网站 1:job_title:xpath1 类别:xpath2...
  2. 网站 2:job_title:xpath21 类别:xpath22

有很多情况我们需要考虑。

  1. 所有字段是否都直接存在于 HTML 中? 还是有些网站使用 JSON 格式 ajax 请求?
  2. 所有字段是否都以相同的格式源存在(全部在 HTML 中或全部在 JSON 中)? 某些字段可能存在于页面的 HTML 代码中,某些字段存在于 JSON 格式脚本中
  3. 是否所有网站都使用GET方法来请求[列表页面]? 还是有些网站使用 POST? 如果网站使用 POST,他们是否发布 JSON 格式的有效负载或键=值对形式的数据?

总之,这里很难说清楚。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM