簡體   English   中英

R-XML包中的htmlParse()無法理解俄語字母

[英]R - htmlParse() from XML package can't understand Russian letters

我正在研究此錯誤幾天,並且在解析俄語符號時,似乎htmlParse函數存在編碼問題。

例如:

htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")

該頁面采用UTF-8編碼,但是可以肯定的是,我正在將htmlParse設置為UTF-8編碼。

但是在htmlParse()輸出中,英語符號已正確編碼,但俄語看起來是典型的錯誤編碼符號。

我正在使用Windows 8,語言環境為Russian_Russia.1251。 我認為這里是非Unicode語言環境的問題,因為當我在Ubuntu中使用此命令時,一切都按預期工作,但是Ubuntu具有en_EN.UTF-8語言環境。

我不知道您嘗試了什么,但這對我來說很好:

doc <- htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")
 xpathSApply(doc,'//*[@id="mw-content-text"]/ul/li/a',xmlValue)
[1] "Russia (фильм)"    "Киры Муратовой"    "Наша Russia"      
    "Руша (Огайо)"      "англ."             "Россия (значения)"

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM