繁体   English   中英

如何抓取HTML5网站并将其HTML内容转换为PDF(使用Python或Ruby库)?

[英]How can I crawl an HTML5 website and convert its HTML content to PDF (using a Python or Ruby library)?

我正在寻找一个引擎/解决方案/框架/ gem / egg / lib /无论是用于Ruby还是Python来登录网站,抓取HTML5内容(主要是画布上的图表),并能够将其转换为PDF文件(或图像)。

我能够在机械化中编写爬行脚本,因此我可以登录网站并抓取数据,但机械化不了解复杂的JavaScript + HTML5。

所以基本上我正在寻找一个HTML5 / JavaScript解释器。

这个问题有点令人困惑......抱歉,在再次阅读问题后再次阅读我的回答。

你的问题有两个部分:

1.我如何抓取网站

可以使用Mechinize进行爬网,但正如您所说,它不能很好地执行Javascript。 所以一种方法是使用Capybara-webkit或Selenium(firefox / chrome)。

通常这用于测试,但您可以使用Ruby代码驱动它来导航各种页面。

2.如何将输出转换为PDF

如果您需要将已爬网的内容转换为PDF,我认为没有办法做到这一点。 您可以使用Capybara-webkit或Selenium截取屏幕截图(对测试很有用),但将其转换为PDF可能只是通过一些命令行实用程序来解决它。

如果您正在寻找真正的HTML到PDF转换器(通常用于从rails应用程序中的视图生成报告),那么请使用PDFKit

基本上它是一个可以输出到PDF的WebKit浏览器。 真的很简单。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM