R中的非ASCII字符問題

Question

我正在使用具有各種非ASCII /雙字節字符的自由文本字段將數據加載到R中。 根據我用於加載數據的功能或數據存儲的格式（ .csv或.xlsx ），字符的顯示方式有所不同。

具體來說，如果我將read.csv與.csv文件一起使用，或者將read_excel與.xlsx文件一起使用，則字符顯示為： Orientaciï¿½n mï¿½s 。

同時，如果我將read_csv與.csv文件一起使用，它們將顯示如下： Orientaci nm s

是否有文件格式/數據加載組合來解決此問題？ 還是一旦加載完畢，是否可以通過某種方式解碼兩種格式的數據？ 我探索了多種方法，包括在適用時更改編碼參數和decoder包，但是我什么都做不到。

有什么想法嗎？

編輯：根據下面的評論，我嘗試了以下操作：

readr::guess_encoding("file with issue.csv")
    # A tibble: 2 x 2
  encoding   confidence
  <chr>           <dbl>
1 UTF-8            1   
2 ISO-8859-1       0.52

readr::guess_encoding("file without issue.csv")
guess_encoding("Goal_Details.csv")
# A tibble: 2 x 2
  encoding     confidence
  <chr>             <dbl>
1 UTF-8              1   
2 windows-1252       0.51

iconv(x,"ISO-8859-1","windows-1252")

x與此問題對應的字符串/字段，但仍不能解決問題。

有什么想法嗎？

Answer 1

經過進一步調查，答案是已經對``...''進行了解碼。 在某些時候，原始字符沒有被解碼，因此Windows默認情況下基本上是說“我不知道這是什么”，並且它對任何非ASCII字符都執行此操作。

例如，一旦到達這一點，就無法在á和¿之間進行區分。 對於這些類型的字符，可以使用人行橫道，但是在這里行不通，因為替換必須在語言級別進行，這是完全不同的問題。

從本質上講，要么要么替換或刪除'''，然后運行多種語言的拼寫檢查器即可。

R中的非ASCII字符問題

問題描述

1 個解決方案

解決方案1
0 已采納 2019-07-20 18:25:18

R中的非ASCII字符問題

問題描述

1 個解決方案

解決方案1 0 已采納 2019-07-20 18:25:18

解決方案1
0 已采納 2019-07-20 18:25:18