簡體   English   中英

如何抓取HTML5網站並將其HTML內容轉換為PDF(使用Python或Ruby庫)?

[英]How can I crawl an HTML5 website and convert its HTML content to PDF (using a Python or Ruby library)?

我正在尋找一個引擎/解決方案/框架/ gem / egg / lib /無論是用於Ruby還是Python來登錄網站,抓取HTML5內容(主要是畫布上的圖表),並能夠將其轉換為PDF文件(或圖像)。

我能夠在機械化中編寫爬行腳本,因此我可以登錄網站並抓取數據,但機械化不了解復雜的JavaScript + HTML5。

所以基本上我正在尋找一個HTML5 / JavaScript解釋器。

這個問題有點令人困惑......抱歉,在再次閱讀問題后再次閱讀我的回答。

你的問題有兩個部分:

1.我如何抓取網站

可以使用Mechinize進行爬網,但正如您所說,它不能很好地執行Javascript。 所以一種方法是使用Capybara-webkit或Selenium(firefox / chrome)。

通常這用於測試,但您可以使用Ruby代碼驅動它來導航各種頁面。

2.如何將輸出轉換為PDF

如果您需要將已爬網的內容轉換為PDF,我認為沒有辦法做到這一點。 您可以使用Capybara-webkit或Selenium截取屏幕截圖(對測試很有用),但將其轉換為PDF可能只是通過一些命令行實用程序來解決它。

如果您正在尋找真正的HTML到PDF轉換器(通常用於從rails應用程序中的視圖生成報告),那么請使用PDFKit

基本上它是一個可以輸出到PDF的WebKit瀏覽器。 真的很簡單。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM