無法從C＃中的Word中讀取轉換后的HTML文件

Question

我正在嘗試解決的問題：

我想將Word文檔轉換為HTML，並希望將特定文本轉換為超鏈接。 在將Word文檔另存為HTML之前，我無法在C＃中找到添加超鏈接的方法。 因此，我將把文檔另存為HTML，然后閱讀HTML文檔，並用超鏈接替換特定文本。

我不知道這是否是最好的方法，但是到目前為止，我沒有找到其他選擇。

現在的問題是，當我讀取HTML文件時，我得到了一些特殊字符的垃圾字符。 在我的Word文檔中，我有“ ...”三個點，我認為這是單詞中的特殊字符，因此當我在HTML中閱讀該點時，我會得到垃圾信件...奇怪的是，當我在記事本中打開該HTML文件時它正確地顯示了我。

但是，通過編碼，我無法讀取此類字符。

請幫我。

Answer 1

聽起來您可能需要研究ms word文檔使用的編碼。 MS Word可能正在使用ASCIIEncoding 。

還可以查看執行此操作的現有c＃庫。

Answer 2

我的實際問題是我想將Word文檔中的特定文本轉換為超鏈接，但我找不到解決方法。 MSDN幫助確實很可悲，並且有很多錯誤浪費了我很多時間。 我是自動執行Word文檔的新手。

這就是為什么我發現將文件轉換為HTML之后添加超級鏈接很容易的原因，但是這有其自身的問題。 這就是我現在的做法

Word庫為您提供“查找”功能，但不會告訴您找到文本的位置。

找到文本和起始位置，然后

地址= doc.Range（開始，結束）。文本+“ .pdf”

doc.Hyperlinks.Add（doc.Range（開始，結束），地址，_

                                SubAddress, ScreenTip, TextToDisplay, Target)