繁体   English   中英

无法抓取非HTML元素

[英]Can't scrape non-html elements

我正在尝试从多个网站抓取搜索结果。 问题在于,并非所有这些网站都以纯HTML文本形式返回其搜索结果,其中很多是使用JS,AJAX等动态生成的。但是,通过使用Firefox查看页面,我可以确切地看到我需要的内容检查器,因为脚本均已运行并修改了html。

我的问题是:有没有办法让我在脚本运行后下载网页,或者至少让它们在本地运行。 这样,我将获得最终的html。

供参考,我使用的是python。

可能重复 在那种情况下,问题在于php和JS。

当然,您必须为脚本(js)提供运行所需的环境,并经常将测试值返回给目标服务器。 服务器端语言并不是那么容易。 因此,今天我们主要利用那里提到的浏览器驱动或模仿工具。

我为您找到了v8js php插件的python类似物: PyV8

PyV8是Google V8引擎的python包装器,它充当Python和JavaScript对象之间的桥梁,并支持在Python脚本中托管Google的v8引擎。

如果配置正确,您的刮板将:

  1. 获取网站的js
  2. 通过给定的插件评估此js
  3. 获取对目标html的访问以进行进一步解析。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM