[英]R - htmlParse() from XML package can't understand Russian letters
我正在研究此錯誤幾天,並且在解析俄語符號時,似乎htmlParse函數存在編碼問題。
例如:
htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")
該頁面采用UTF-8編碼,但是可以肯定的是,我正在將htmlParse設置為UTF-8編碼。
但是在htmlParse()輸出中,英語符號已正確編碼,但俄語看起來是典型的錯誤編碼符號。
我正在使用Windows 8,語言環境為Russian_Russia.1251。 我認為這里是非Unicode語言環境的問題,因為當我在Ubuntu中使用此命令時,一切都按預期工作,但是Ubuntu具有en_EN.UTF-8語言環境。
我不知道您嘗試了什么,但這對我來說很好:
doc <- htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")
xpathSApply(doc,'//*[@id="mw-content-text"]/ul/li/a',xmlValue)
[1] "Russia (фильм)" "Киры Муратовой" "Наша Russia"
"Руша (Огайо)" "англ." "Россия (значения)"
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.