网页抓取新闻文章

Question

我在从以下网站抓取新闻文章标题和文章描述时遇到问题： https : //www.hrdive.com/ 。 我尝试的编码不起作用。 有人可以帮我修复此编码以使其正常工作吗？

   for i in data.xpath("//li[@class='row feed__item']"):
   title= i.xpath('//h3/a/text()')
   article = i.xpath('//p[@class="feed__description"]/text()')
   print(title, article)

Answer 1

您定位的元素仍然嵌套在几个标签中， div > h3 > a ，因此您需要使用//来查找它。

for i in data.xpath("//li[@class='row feed__item']"):
   title = i.xpath('//h3/a/text()')
   article = i.xpath('//p[@class='feed__description']/text()')
   print(title, article)

注意开头的双斜线//

提示：

您可以在浏览器控制台中测试您的 xpath，例如，在您的情况下，您可以访问https://www.hrdive.com/并检查/转到控制台并使用$x ：

$x("//li[@class='row feed__item']//p[@class='feed__description']/text()")

// or

$x("//li[@class='row feed__item']//p[@class='feed__description']")[0].innerText

网页抓取新闻文章

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-03-27 03:01:10

网页抓取新闻文章

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-03-27 03:01:10

解决方案1
0 已采纳 2020-03-27 03:01:10