簡體 English 中英

如何抓取HTML5網站並將其HTML內容轉換為PDF（使用Python或Ruby庫）？

[英]How can I crawl an HTML5 website and convert its HTML content to PDF (using a Python or Ruby library)?

原文 2012-08-24 00:50:27 5 1 javascript/ python/ ruby/ html5/ frameworks

我正在尋找一個引擎/解決方案/框架/ gem / egg / lib /無論是用於Ruby還是Python來登錄網站，抓取HTML5內容（主要是畫布上的圖表），並能夠將其轉換為PDF文件（或圖像）。

我能夠在機械化中編寫爬行腳本，因此我可以登錄網站並抓取數據，但機械化不了解復雜的JavaScript + HTML5。

所以基本上我正在尋找一個HTML5 / JavaScript解釋器。

1 個解決方案

這個問題有點令人困惑......抱歉，在再次閱讀問題后再次閱讀我的回答。

你的問題有兩個部分：

1.我如何抓取網站

可以使用Mechinize進行爬網，但正如您所說，它不能很好地執行Javascript。 所以一種方法是使用Capybara-webkit或Selenium（firefox / chrome）。

通常這用於測試，但您可以使用Ruby代碼驅動它來導航各種頁面。

2.如何將輸出轉換為PDF

如果您需要將已爬網的內容轉換為PDF，我認為沒有辦法做到這一點。 您可以使用Capybara-webkit或Selenium截取屏幕截圖（對測試很有用），但將其轉換為PDF可能只是通過一些命令行實用程序來解決它。

如果您正在尋找真正的HTML到PDF轉換器（通常用於從rails應用程序中的視圖生成報告），那么請使用PDFKit

基本上它是一個可以輸出到PDF的WebKit瀏覽器。 真的很簡單。

如何使用HTML5在網站中合並音頻？

[英]How can I incorporate audio in a website using HTML5?

如何使用html5和jquery在網頁中顯示pdf內容？

[英]How to display pdf content in web page using html5 and jquery?

如何在不使用IFrame的情況下在頁面上顯示PDF的HTML5轉換？

[英]How to display HTML5 convert of a PDF on page without using an IFrame?

如何在客戶端使用PhoneGap1.4 Xcode4.2 HTML5將HTML導出為PDF

[英]How can I clientside export HTML to PDF using PhoneGap1.4 Xcode4.2 HTML5

如何使用Javascript將HTML / CSS轉換為PDF？

[英]How can I convert HTML/CSS to PDF using Javascript?

HTML5下載網站為PDF格式

[英]HTML5 download website as PDF

我可以使用HTML5 File API預覽PDF嗎？

[英]Can I get a preview for a PDF using HTML5 File API?

html5視頻元素-如何獲得其名稱

[英]html5 video element - how can I get its name

如何使用javascript從HTML5框架內保存PDF <embed> 標簽

[英]How using javascript can i save a PDF from inside a frame with a html5 <embed> tag

如何在沒有任何庫的情況下在JavaScript中拍攝快照並轉換為HTML頁面的PDF？

[英]How can I take snap shot and convert to PDF of section of HTML page in JavaScript without any Library?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用HTML5在網站中合並音頻？如何使用html5和jquery在網頁中顯示pdf內容？如何在不使用IFrame的情況下在頁面上顯示PDF的HTML5轉換？如何在客戶端使用PhoneGap1.4 Xcode4.2 HTML5將HTML導出為PDF 如何使用Javascript將HTML / CSS轉換為PDF？ HTML5下載網站為PDF格式我可以使用HTML5 File API預覽PDF嗎？ html5視頻元素-如何獲得其名稱如何使用javascript從HTML5框架內保存PDF <embed> 標簽如何在沒有任何庫的情況下在JavaScript中拍攝快照並轉換為HTML頁面的PDF？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM