[英]How to get the valid encoding output in the Chinese characters on RStudio in Mac?
我們正在清理一些繁體中文的營銷數據。 我們發現 R 可以毫無問題地讀取 UTF-8 繁體中文變量名。 但是,我們無法在那里獲得有效的 UTF-8 輸出。 例如,
如果我們命令: unique(rframe$性別)
這就是我們得到的: [1] "\女" "\男"
其中性別為“性別”,\女表示女性(女),\男表示男性(男)。
最有趣的是,如果我們使用相同的 UTF-8 CSV 文件,Linux 平台上的 R 會生成有效的 UTF-8 中文輸出。 為什么同樣的RStudio,在Linux平台上可以成功生成UTF-8的中文輸出編碼,在Mac系統上卻無法輸出有效的UTF-8中文輸出?
這個很麻煩的問題已經存在很久了。 事實上,在較舊的 RStudio 版本中,我們可以獲得有效的 UTF-8 輸出。 有朋友可以幫幫我們嗎?
多謝。
錢德勒
錯誤可能出在數據的導入中。 你是如何導入數據的?
我嘗試通過導入一些帶有中文字符的數據並使用專門的 encoding="UTF-8" 來嘗試,我沒有任何問題。
所以我的第一個建議是試試這個:
data <-read.csv("mydata.csv", encoding="UTF-8", stringsAsFactors=FALSE)
另一種方法是將變量指定為字符。 根據以下答案。 所以你得到的是漢字而不是unicode。
as.character(unique(rframe$性別))
如果您提供數據的摘錄,我可以檢查並可能確認這一點。
經過幾次嘗試和錯誤,我們發現這個問題可能來自在 Mac 上生成 R 應用程序的過程。
我們從 Git 下載了 R 並編譯了一個應用程序,通過 Apple clang 版本 12.0.0(clang-1200.0.32.29,目標:x86_64-apple-darwin19.6.0),從源代碼。 它工作正常。 我們的麻煩問題不再出現。 我們今天向 R 社會報告了我們的發現。 我們希望人們能盡快看到快速響應。
致:Bug-Report-Request bug-report-request@r-project.org
你好,
我更像是一個系統程序員,幫助我的朋友 (Chandler) 使用 R 來處理數據。 他在終端上獲取中文/Unicode 輸出時遇到了一些麻煩。 但是,這只發生在 Mac 上。 我無法在 Linux 上重現它。
我認為 R - Mac 版本可能有問題。 我用 GitHub 的源代碼重新編譯了 R,我無法重現這個問題。 網站下載一次即可重現,失敗率100%。
詳細信息位於 https://www.facebook.com/groups/RnRStudio/permalink/4555694011125386/
我認為這是因為編譯 R/MAC 的工具鏈可能已經過時。
如果您可以在 Bugzilla 上創建錯誤並允許我在那里發表評論,我將不需要 Bugzilla 帳戶。 或者,如果你們中的任何人可以在這個問題上提供贊助,那就更好了。
或者我需要一個 Bugzilla 帳戶。
謝謝!
此問題來自 R 版本 4.0.4 源代碼中的錯誤。 UTF-8 代碼無法在 Windows 和 Mac 上有效顯示。 它已在 4.0.5 版中修復。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.