簡體   English   中英

無法從C#中的Word中讀取轉換后的HTML文件

[英]unable to read a converted HTML file from Word in C#

我正在嘗試解決的問題:

我想將Word文檔轉換為HTML,並希望將特定文本轉換為超鏈接。 在將Word文檔另存為HTML之前,我無法在C#中找到添加超鏈接的方法。 因此,我將把文檔另存為HTML,然后閱讀HTML文檔,並用超鏈接替換特定文本。

我不知道這是否是最好的方法,但是到目前為止,我沒有找到其他選擇。

現在的問題是,當我讀取HTML文件時,我得到了一些特殊字符的垃圾字符。 在我的Word文檔中,我有“ ...”三個點,我認為這是單詞中的特殊字符,因此當我在HTML中閱讀該點時,我會得到垃圾信件...奇怪的是,當我在記事本中打開該HTML文件時它正確地顯示了我。

但是,通過編碼,我無法讀取此類字符。

請幫我。

聽起來您可能需要研究ms word文檔使用的編碼 MS Word可能正在使用ASCIIEncoding

還可以查看執行此操作的現有c#庫。

我的實際問題是我想將Word文檔中的特定文本轉換為超鏈接,但我找不到解決方法。 MSDN幫助確實很可悲,並且有很多錯誤浪費了我很多時間。 我是自動執行Word文檔的新手。

這就是為什么我發現將文件轉換為HTML之后添加超級鏈接很容易的原因,但是這有其自身的問題。 這就是我現在的做法

Word庫為您提供“查找”功能,但不會告訴您找到文本的位置。

找到文本和起始位置,然后

地址= doc.Range(開始,結束)。文本+“ .pdf”

doc.Hyperlinks.Add(doc.Range(開始,結束),地址,_

                                SubAddress, ScreenTip, TextToDisplay, Target)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM