簡體   English   中英

您如何在 R 中讀取帶有豎線分隔符(同時忽略其他可能的分隔符)的 .txt 文件?

[英]How do you read in a .txt file with vertical bar separators (while ignoring other possible separators) in R?

我的文本數據始終由豎線(“|”)分隔,但豎線之間的文本很少一致,並且通常包含可用作分隔符的字符(“-”、“、”和回車符)。 我希望只有 2 列(報告編號和評論)。

目標:

報告編號 報告
4312822 評論:這個人與其他人一起工作做得很好
- 階級地位是 15/265
- 265 人中的最終學術平均/成績為 83.51%/209
3059758 評論,第一部分:這是一份虛擬報告。

數據是什么樣的:

4312822|評論:此人在與他人合作方面做得很好。 - 階級地位是 1/10
- 最終學術平均/成績為 83.51% / 209 分(共 265 名)|

3059758|評論,第一部分:這是一份虛擬報告。|

我已經嘗試過 read.delim 和 read.table:

Reports = read.delim('reports.txt', sep = "|", stringsAsFactors = FALSE, skipNul = TRUE, blank.lines.skip = TRUE)

然而,結果是混亂的,沒有被“|”整齊地分割

一種方法是使用readr包的函數read_delim readr在 CRAN 上可用,因此您可以從 R 會話中安裝它:

install.packages("readr")
readr::read_delim("a;a|b,b|c.c|d:d
", delim = "|", col_names = FALSE)

為確保上述示例有效,請確保將第一個字符向量拆分為兩行,即需要包含回車符。

然后,要實際將它與您的文件一起使用,您需要在 R 會話中鍵入,

readr::read_delim("reports.txt", delim = "|")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM