R-XML包中的htmlParse（）無法理解俄語字母

Question

我正在研究此錯誤幾天，並且在解析俄語符號時，似乎htmlParse函數存在編碼問題。

例如：

htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")

該頁面采用UTF-8編碼，但是可以肯定的是，我正在將htmlParse設置為UTF-8編碼。

但是在htmlParse（）輸出中，英語符號已正確編碼，但俄語看起來是典型的錯誤編碼符號。

我正在使用Windows 8，語言環境為Russian_Russia.1251。 我認為這里是非Unicode語言環境的問題，因為當我在Ubuntu中使用此命令時，一切都按預期工作，但是Ubuntu具有en_EN.UTF-8語言環境。

Answer 1

我不知道您嘗試了什么，但這對我來說很好：

doc <- htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")
 xpathSApply(doc,'//*[@id="mw-content-text"]/ul/li/a',xmlValue)
[1] "Russia (фильм)"    "Киры Муратовой"    "Наша Russia"      
    "Руша (Огайо)"      "англ."             "Россия (значения)"

R-XML包中的htmlParse（）無法理解俄語字母

問題描述

1 個解決方案

解決方案1
1 已采納 2014-01-19 13:03:09

R-XML包中的htmlParse（）無法理解俄語字母

問題描述

1 個解決方案

解決方案1 1 已采納 2014-01-19 13:03:09

解決方案1
1 已采納 2014-01-19 13:03:09