繁体 English 中英

如何抓取HTML5网站并将其HTML内容转换为PDF（使用Python或Ruby库）？

[英]How can I crawl an HTML5 website and convert its HTML content to PDF (using a Python or Ruby library)?

原文 2012-08-24 00:50:27 7 1 javascript/ python/ ruby/ html5/ frameworks

我正在寻找一个引擎/解决方案/框架/ gem / egg / lib /无论是用于Ruby还是Python来登录网站，抓取HTML5内容（主要是画布上的图表），并能够将其转换为PDF文件（或图像）。

我能够在机械化中编写爬行脚本，因此我可以登录网站并抓取数据，但机械化不了解复杂的JavaScript + HTML5。

所以基本上我正在寻找一个HTML5 / JavaScript解释器。

1 个解决方案

这个问题有点令人困惑......抱歉，在再次阅读问题后再次阅读我的回答。

你的问题有两个部分：

1.我如何抓取网站

可以使用Mechinize进行爬网，但正如您所说，它不能很好地执行Javascript。 所以一种方法是使用Capybara-webkit或Selenium（firefox / chrome）。

通常这用于测试，但您可以使用Ruby代码驱动它来导航各种页面。

2.如何将输出转换为PDF

如果您需要将已爬网的内容转换为PDF，我认为没有办法做到这一点。 您可以使用Capybara-webkit或Selenium截取屏幕截图（对测试很有用），但将其转换为PDF可能只是通过一些命令行实用程序来解决它。

如果您正在寻找真正的HTML到PDF转换器（通常用于从rails应用程序中的视图生成报告），那么请使用PDFKit

基本上它是一个可以输出到PDF的WebKit浏览器。 真的很简单。

如何使用HTML5在网站中合并音频？

[英]How can I incorporate audio in a website using HTML5?

如何使用html5和jquery在网页中显示pdf内容？

[英]How to display pdf content in web page using html5 and jquery?

如何在不使用IFrame的情况下在页面上显示PDF的HTML5转换？

[英]How to display HTML5 convert of a PDF on page without using an IFrame?

如何在客户端使用PhoneGap1.4 Xcode4.2 HTML5将HTML导出为PDF

[英]How can I clientside export HTML to PDF using PhoneGap1.4 Xcode4.2 HTML5

如何使用Javascript将HTML / CSS转换为PDF？

[英]How can I convert HTML/CSS to PDF using Javascript?

HTML5下载网站为PDF格式

[英]HTML5 download website as PDF

我可以使用HTML5 File API预览PDF吗？

[英]Can I get a preview for a PDF using HTML5 File API?

html5视频元素-如何获得其名称

[英]html5 video element - how can I get its name

如何使用javascript从HTML5框架内保存PDF <embed> 标签

[英]How using javascript can i save a PDF from inside a frame with a html5 <embed> tag

如何在没有任何库的情况下在JavaScript中拍摄快照并转换为HTML页面的PDF？

[英]How can I take snap shot and convert to PDF of section of HTML page in JavaScript without any Library?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用HTML5在网站中合并音频？如何使用html5和jquery在网页中显示pdf内容？如何在不使用IFrame的情况下在页面上显示PDF的HTML5转换？如何在客户端使用PhoneGap1.4 Xcode4.2 HTML5将HTML导出为PDF 如何使用Javascript将HTML / CSS转换为PDF？ HTML5下载网站为PDF格式我可以使用HTML5 File API预览PDF吗？ html5视频元素-如何获得其名称如何使用javascript从HTML5框架内保存PDF <embed> 标签如何在没有任何库的情况下在JavaScript中拍摄快照并转换为HTML页面的PDF？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM