簡體   English   中英

R中的非ASCII字符問題

[英]Issue with Non-ASCII Characters in R

我正在使用具有各種非ASCII /雙字節字符的自由文本字段將數據加載到R中。 根據我用於加載數據的功能或數據存儲的格式( .csv.xlsx ),字符的顯示方式有所不同。

具體來說,如果我將read.csv.csv文件一起使用,或者將read_excel.xlsx文件一起使用,則字符顯示為: Orientaci�n m�s

同時,如果我將read_csv.csv文件一起使用,它們將顯示如下: Orientaci nm s

是否有文件格式/數據加載組合來解決此問題? 還是一旦加載完畢,是否可以通過某種方式解碼兩種格式的數據? 我探索了多種方法,包括在適用時更改編碼參數和decoder包,但是我什么都做不到。

有什么想法嗎?

編輯:根據下面的評論,我嘗試了以下操作:

readr::guess_encoding("file with issue.csv")
    # A tibble: 2 x 2
  encoding   confidence
  <chr>           <dbl>
1 UTF-8            1   
2 ISO-8859-1       0.52

readr::guess_encoding("file without issue.csv")
guess_encoding("Goal_Details.csv")
# A tibble: 2 x 2
  encoding     confidence
  <chr>             <dbl>
1 UTF-8              1   
2 windows-1252       0.51

iconv(x,"ISO-8859-1","windows-1252")

x與此問題對應的字符串/字段,但仍不能解決問題。

有什么想法嗎?

經過進一步調查,答案是已經對``...''進行了解碼。 在某些時候,原始字符沒有被解碼,因此Windows默認情況下基本上是說“我不知道這是什么”,並且它對任何非ASCII字符都執行此操作。

例如,一旦到達這一點,就無法在á和¿之間進行區分。 對於這些類型的字符,可以使用人行橫道,但是在這里行不通,因為替換必須在語言級別進行,這是完全不同的問題。

從本質上講,要么要么替換或刪除''',然后運行多種語言的拼寫檢查器即可。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM