繁体   English   中英

在ASP.NET中,将PDF文件转换为HTML的最佳方法是什么?

[英]In ASP.NET what is the best way to convert a PDF file to HTML?

用户要做的就是在他们的计算机上选择一个PDF文档,然后将其上传到我的网站,在这里我将转换为HTML文档以显示在网站上。 转换后,文档将存储在数据库中。

将PDF转换为HTML的最佳方法是什么?

我收到了一个要求,即用户将以PDF格式创建“新闻”故事,然后将其上传到服务器,然后将其转换为HTML并显示在网站上。

任何可以将文档另存为PDF的文档创建软件都可以将其另存为HTML。 我假设问题是您的用户将创建丰富的文档(很多嵌入式图像),从而导致多个文件,并且您的需求源于对用户尽可能简单地上传这些文档的需求。

有许多转换程序包可以为您完成此操作,但是当您谈论丰富的内容时,您所谈论的是文本加图像。 这些图像必须存储在某个地方并以某种方式提供,并且无论使用哪种转换方法,都需要您检查所有图像源,以确保它们指向服务器上的有效位置。

我想提出一种替代方法,可以带给您的团队:实现众多博客API之一以发布内容。 有免费的和商业的软件包,使用这些API将内容直接发布到网站,例如Windows Live Writer和Microsoft Word。 您的用户只需创建其内容并将其直接上传到您的网站,而无需先将其发布为PDF,然后再上传。 因此,此过程对您的用户而言变得更加顺畅,并且您无需花费数千美元来开发或购买转换代码的形式就可以获得帖子。

两种最常见的API是MetaWeblog APIMovable Type API 两者都非常简单且易于实现。 我认为这种方式比您正在考虑的方式更好。

我认为将PDF转换为HTML字符串不一定是最好的主意,尤其是如果您要将其导出回PDF格式时。 PDF文件通常包含诸如图像之类的二进制元素,因此您最好通过诸如Base64之类的编码将其转换为ASCII。 这样,您将拥有一个ASCII字符串,可以将其保存到数据库的文本字段中,然后将其转换回去。 您能否在主要需求上进一步扩展?

我的建议是,如果可能的话,不要那样做(但我们都知道经理们是什么样的),所以...

我建议您不要将PDF与HTML相互转换(因为除非找到商业解决方案,否则它几乎不可能),而是像已经提到的那样进行操作,并将其存储为编码的Base64字符串或BLOB。或数据库中的其他二进制格式,然后使用浏览器的某种PDF视图插件将其显示给用户。

它所要做的只是一个简单的Google搜索“ PDF to HTML”: http : //www.gnostice.com/pdf2manyOverview_x.asp 我敢肯定还有其他人。

因此,尽管“可能”,但您可能需要向经理解释这不是最佳的内容管理解决方案。

为什么不使用iTextSharp读取PDF内容? 然后,您可以将二进制PDF和文本内容都保存到数据库中。 然后,您可以让用户搜索内容并下载PDF。

您应该查看DynamicPDF。 他们有一个转换器(当前是Beta版)用于此目的。 我们已经成功地使用了他们的产品(尤其是用于将Reporting Services报表直接转储为PDF)。

参考: http : //www.dynamicpdf.com/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM