簡體   English   中英

如何在Mac的RStudio上獲取漢字中的有效編碼輸出?

[英]How to get the valid encoding output in the Chinese characters on RStudio in Mac?

我們正在清理一些繁體中文的營銷數據。 我們發現 R 可以毫無問題地讀取 UTF-8 繁體中文變量名。 但是,我們無法在那里獲得有效的 UTF-8 輸出。 例如,

如果我們命令: unique(rframe$性別)

這就是我們得到的: [1] "\女" "\男"

其中性別為“性別”,\女表示女性(女),\男表示男性(男)。

最有趣的是,如果我們使用相同的 UTF-8 CSV 文件,Linux 平台上的 R 會生成有效的 UTF-8 中文輸出。 為什么同樣的RStudio,在Linux平台上可以成功生成UTF-8的中文輸出編碼,在Mac系統上卻無法輸出有效的UTF-8中文輸出?

這個很麻煩的問題已經存在很久了。 事實上,在較舊的 RStudio 版本中,我們可以獲得有效的 UTF-8 輸出。 有朋友可以幫幫我們嗎?

多謝。

錢德勒

錯誤可能出在數據的導入中。 你是如何導入數據的?

我嘗試通過導入一些帶有中文字符的數據並使用專門的 encoding="UTF-8" 來嘗試,我沒有任何問題。

所以我的第一個建議是試試這個:

data <-read.csv("mydata.csv", encoding="UTF-8", stringsAsFactors=FALSE)

另一種方法是將變量指定為字符。 根據以下答案 所以你得到的是漢字而不是unicode。

as.character(unique(rframe$性別))

如果您提供數據的摘錄,我可以檢查並可能確認這一點。

經過幾次嘗試和錯誤,我們發現這個問題可能來自在 Mac 上生成 R 應用程序的過程。

我們從 Git 下載了 R 並編譯了一個應用程序,通過 Apple clang 版本 12.0.0(clang-1200.0.32.29,目標:x86_64-apple-darwin19.6.0),從源代碼。 它工作正常。 我們的麻煩問題不再出現。 我們今天向 R 社會報告了我們的發現。 我們希望人們能盡快看到快速響應。

以下消息是我們發送給 R 的報告。

致:Bug-Report-Request bug-report-request@r-project.org

你好,

我更像是一個系統程序員,幫助我的朋友 (Chandler) 使用 R 來處理數據。 他在終端上獲取中文/Unicode 輸出時遇到了一些麻煩。 但是,這只發生在 Mac 上。 我無法在 Linux 上重現它。

我認為 R - Mac 版本可能有問題。 我用 GitHub 的源代碼重新編譯了 R,我無法重現這個問題。 網站下載一次即可重現,失敗率100%。

詳細信息位於 https://www.facebook.com/groups/RnRStudio/permalink/4555694011125386/

我認為這是因為編譯 R/MAC 的工具鏈可能已經過時。

如果您可以在 Bugzilla 上創建錯誤並允許我在那里發表評論,我將不需要 Bugzilla 帳戶。 或者,如果你們中的任何人可以在這個問題上提供贊助,那就更好了。

或者我需要一個 Bugzilla 帳戶。

謝謝!

此問題來自 R 版本 4.0.4 源代碼中的錯誤。 UTF-8 代碼無法在 Windows 和 Mac 上有效顯示。 它已在 4.0.5 版中修復。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM