繁体 English 中英

无法抓取非HTML元素

[英]Can't scrape non-html elements

原文 2015-03-13 07:47:30 0 1 python/ html/ web-scraping

我正在尝试从多个网站抓取搜索结果。 问题在于，并非所有这些网站都以纯HTML文本形式返回其搜索结果，其中很多是使用JS，AJAX等动态生成的。但是，通过使用Firefox查看页面，我可以确切地看到我需要的内容检查器，因为脚本均已运行并修改了html。

我的问题是：有没有办法让我在脚本运行后下载网页，或者至少让它们在本地运行。 这样，我将获得最终的html。

供参考，我使用的是python。

1 个解决方案

可能重复。 在那种情况下，问题在于php和JS。

当然，您必须为脚本（js）提供运行所需的环境，并经常将测试值返回给目标服务器。 服务器端语言并不是那么容易。 因此，今天我们主要利用那里提到的浏览器驱动或模仿工具。

我为您找到了v8js php插件的python类似物： PyV8 。

PyV8是Google V8引擎的python包装器，它充当Python和JavaScript对象之间的桥梁，并支持在Python脚本中托管Google的v8引擎。

如果配置正确，您的刮板将：

获取网站的js
通过给定的插件评估此js
获取对目标html的访问以进行进一步解析。

查找字符串中的所有HTML和非HTML编码的URL

[英]Find all HTML and non-HTML encoded URLs in string

在Scrapy中区分HTML和非HTML页面

[英]Distinguishing between HTML and non-HTML pages in Scrapy

从Google的应用程序引擎生成非HTML输出

[英]generating non-html output from google's app engine

REST API中的普通（非HTML）错误页面

[英]Plain (non-HTML) error pages in REST api

无法使用 beautifulsoup 抓取所有元素

[英]Can't scrape all elements with beautifulsoup

使用python从网站获取非HTML数据

[英]Grabbing non-HTML data from a website using python

是否可以在 python 上的非 html（outlook）email 中包含超链接？

[英]Is it possible to include a hyperlink in a non-html (outlook) email on python?

无法使用BeautifulSoup抓取HTML表

[英]Can't scrape HTML table using BeautifulSoup

无法使用 BeautifulSoup 抓取嵌套的 html

[英]Can't scrape nested html using BeautifulSoup

无法从Airbnb抓取所有HTML

[英]Can't scrape all HTML from Airbnb

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 查找字符串中的所有HTML和非HTML编码的URL 在Scrapy中区分HTML和非HTML页面从Google的应用程序引擎生成非HTML输出 REST API中的普通（非HTML）错误页面无法使用 beautifulsoup 抓取所有元素使用python从网站获取非HTML数据是否可以在 python 上的非 html（outlook）email 中包含超链接？无法使用BeautifulSoup抓取HTML表无法使用 BeautifulSoup 抓取嵌套的 html 无法从Airbnb抓取所有HTML

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM