如何在 R 中使用 read.delim 讀取非英文字符？

Question

我有一個包含多種語言的文本文件，如何在 R 中使用read.delim函數讀取，

Encoding("file.tsv")
#[1] "unknown"

source_data = read.delim(file, header= F, fileEncoding= "windows-1252",
               sep = "\t", quote = "")
source_D[360]
#[1] "ð¿ð¾ð¸ñðº ð½ð° ññ‚ð¾ð¼ ñð°ð¹ñ‚ðµ"

但是記事本中顯示的source_D[360]是'поиск на этом сайте'

Answer 1

tidyverse 方法：

在 read_delim 中使用選項locale 。 （readr 函數有 _ 而不是 . 並且通常更快更聰明地閱讀）更多細節在這里： https ://r4ds.had.co.nz/data-import.html#parsing-a-vector

source_data = read_delim(file, header= F, 
                         locale = locale(encoding = "windows-1252"),
                         sep = "\t", quote = "")

Answer 2

source_data = read.delim(file, header = F, sep = "\t", quote = "", stringsAsFactors = FALSE)
Encoding(source_data)= "UTF-8"

我試過，如果你在 Windows 中運行你的 R，上面的代碼對我有用。 如果您在 Unix 中運行 R，則可以使用以下代碼

source_data = read.delim(file, header = F, fileEncoding="UTF-8", sep = "\t", quote = "", stringsAsFactors = FALSE)

如何在 R 中使用 read.delim 讀取非英文字符？

問題描述

2 個解決方案

解決方案1
2 2020-09-25 15:53:15

解決方案2
0 2016-05-09 08:49:59

如何在 R 中使用 read.delim 讀取非英文字符？

問題描述

2 個解決方案

解決方案1 2 2020-09-25 15:53:15

解決方案2 0 2016-05-09 08:49:59

解決方案1
2 2020-09-25 15:53:15

解決方案2
0 2016-05-09 08:49:59