簡體   English   中英

在ASP.NET中,將PDF文件轉換為HTML的最佳方法是什么?

[英]In ASP.NET what is the best way to convert a PDF file to HTML?

用戶要做的就是在他們的計算機上選擇一個PDF文檔,然后將其上傳到我的網站,在這里我將轉換為HTML文檔以顯示在網站上。 轉換后,文檔將存儲在數據庫中。

將PDF轉換為HTML的最佳方法是什么?

我收到了一個要求,即用戶將以PDF格式創建“新聞”故事,然后將其上傳到服務器,然后將其轉換為HTML並顯示在網站上。

任何可以將文檔另存為PDF的文檔創建軟件都可以將其另存為HTML。 我假設問題是您的用戶將創建豐富的文檔(很多嵌入式圖像),從而導致多個文件,並且您的需求源於對用戶盡可能簡單地上傳這些文檔的需求。

有許多轉換程序包可以為您完成此操作,但是當您談論豐富的內容時,您所談論的是文本加圖像。 這些圖像必須存儲在某個地方並以某種方式提供,並且無論使用哪種轉換方法,都需要您檢查所有圖像源,以確保它們指向服務器上的有效位置。

我想提出一種替代方法,可以帶給您的團隊:實現眾多博客API之一以發布內容。 有免費的和商業的軟件包,使用這些API將內容直接發布到網站,例如Windows Live Writer和Microsoft Word。 您的用戶只需創建其內容並將其直接上傳到您的網站,而無需先將其發布為PDF,然后再上傳。 因此,此過程對您的用戶而言變得更加順暢,並且您無需花費數千美元來開發或購買轉換代碼的形式就可以獲得帖子。

兩種最常見的API是MetaWeblog APIMovable Type API 兩者都非常簡單且易於實現。 我認為這種方式比您正在考慮的方式更好。

我認為將PDF轉換為HTML字符串不一定是最好的主意,尤其是如果您要將其導出回PDF格式時。 PDF文件通常包含諸如圖像之類的二進制元素,因此您最好通過諸如Base64之類的編碼將其轉換為ASCII。 這樣,您將擁有一個ASCII字符串,可以將其保存到數據庫的文本字段中,然后將其轉換回去。 您能否在主要需求上進一步擴展?

我的建議是,如果可能的話,不要那樣做(但我們都知道經理們是什么樣的),所以...

我建議您不要將PDF與HTML相互轉換(因為除非找到商業解決方案,否則它幾乎不可能),而是像已經提到的那樣進行操作,並將其存儲為編碼的Base64字符串或BLOB。或數據庫中的其他二進制格式,然后使用瀏覽器的某種PDF視圖插件將其顯示給用戶。

它所要做的只是一個簡單的Google搜索“ PDF to HTML”: http : //www.gnostice.com/pdf2manyOverview_x.asp 我敢肯定還有其他人。

因此,盡管“可能”,但您可能需要向經理解釋這不是最佳的內容管理解決方案。

為什么不使用iTextSharp讀取PDF內容? 然后,您可以將二進制PDF和文本內容都保存到數據庫中。 然后,您可以讓用戶搜索內容並下載PDF。

您應該查看DynamicPDF。 他們有一個轉換器(當前是Beta版)用於此目的。 我們已經成功地使用了他們的產品(尤其是用於將Reporting Services報表直接轉儲為PDF)。

參考: http : //www.dynamicpdf.com/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM