繁体   English   中英

尝试使用谷歌导入功能抓取网页

[英]Trying to Scrape a Web using google import function

我一直在尝试获取网站https://uniworthshop.com/shirts的详细信息。

我正在寻找的信息是“衬衫名称”,“价格”,但不知道如何通过导入功能进一步添加以获取价格。

这是工作表链接。 https://docs.google.com/spreadsheets/d/1ZCrQlBjfMmO9636npMth9ErDr4kSnK8LhKb7JXS2KxU/edit#gid=0

有人可以指导或分享一个脚本来做这件事。

您可以执行以下操作:

  • 在单元格 A1 上: =IMPORTXML("https://uniworthshop.com/shirts","//div[starts-with(@class, 'product-name')]")
  • 在单元格 A2 上: =IMPORTXML("https://uniworthshop.com/shirts","//div[@class='product-price']")

参考:

通过检查该页面源代码 html,似乎<div class="product-name"><div class="product-price">是包含您需要的信息的两个标签。 您最好的方法是使用Selenium ,在这种情况下使用 Python,并通过按类搜索元素从这两个标签中提取 innerText ,或者您可以只使用请求模块来获取完整的 html,然后使用 BeautifulSoup 或其他东西解析它。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM