繁体   English   中英

导入带有“特殊”字符的.csv文件

[英]Importing .csv files with “special” characters

我正在尝试将.csv文件读入R。该.csv文件是在Excel中创建的,它包含“长”破折号,这是Excel“自动更正”序列空间-破折号-空格的结果。 包含这些“长”破折号的示例条目:

美国–加利福尼亚–洛杉矶
美国–华盛顿–西雅图

我尝试了不同的编码,包括以下三个选项:

x <- read.csv(filename, encoding="windows-1252") # Motivated by http://www.perlmonks.org/?node_id=551123
x <- read.csv(filename, encoding="latin1")
x <- read.csv(filename, encoding="UFT-8")

但是,长破折号显示为 (第一个和第二个选项)或<U+0096> (第三个选项)。

我意识到我可以用不同的格式存储文件或使用不同的软件( 使用UTF8编码的Excel到CSV ),但这不是重点。

有谁知道在这种情况下R中的哪种编码选项有效?

如果您使用的是RStudio,请使用“导入数据集”。

  • 使用标题:否
  • 分隔符空白
  • 小数点
  • 报价双引号
  • 取消选中字符串作为因素

加载文档后,您只需删除现在显示为“?”的列即可 您可以看到这是第2列和第4列。如果您有数据框mydf,则可以像这样删除第二列。

mydf_new<-mydf[-2]

您可以对另一列(即现在的第3列)执行相同的操作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM