繁体   English   中英

如何在 R 中将具有两个制表符分隔列的 multiple.txt 文件读取到一个 dataframe 中?

[英]How can I read multiple .txt files with two tab separated columns into one dataframe in R?

我有多个 .txt 文件。 这些文本文件有两个制表符分隔的列,第一个给出语音的 ID,第二个是语音的纯文本。 我想阅读它们并将它们全部与 R 合并以创建一个语料库。

当我像这样阅读 any individual.txt 文件时:

 df <- read_tsv("XXX.txt")

我最终是这样的:

输入(头(df))

 structure(list(`tbmm-2021-01-26s01p001` = c("tbmm-2021-01-26s01p002", "tbmm-2021-01-26s01p003", "tbmm-2021-01-26s01p004", "tbmm-2021-01-26s01p005", "tbmm-2021-01-26s01p006", "tbmm-2021-01-26s01p007"), `Türkiye Büyük Millet Meclisinin 41'inci Birleşimini açıyorum.` = c("Toplantı yeter sayısı vardır, görüşmelere başlıyoruz.", "Gündeme geçmeden önce 3 sayın milletvekiline gündem dışı söz vereceğim.", "Gündem dışı ilk söz, Türkiye Büyük Millet Meclisi eski Başkanı, İstiklal Savaşı gazisi Kâzım Karabekir'in vefat yıl dönümü münasebetiyle söz isteyen Karaman Milletvekili Sayın Selman Oğuzhan Eser'e aittir.", "Buyurun Sayın Eser.", "Sayın Başkan, değerli milletvekilleri; İstiklal Savaşı gazisi, Türkiye Büyük Millet Meclisi Başkanı Kâzım Karabekir Paşamızın vefatının 73'üncü seneidevriyesinde onun ölçülü ve bizlere rehber olan hayatı hakkında gündem dışı söz almış bulunuyorum.Bu vesileyle yüce Meclisi ve aziz milletimizi saygıyla selamlıyorum.", "Millî mücadele yıllarının unutulmaz kahramanlarından Kâzım Karabekir Paşa'mızın bugüne kadar anlatılamayan fikirleri ve hayatı hakkında bugün söyleyeceğimiz her söz ona olan minnetimizi ifade etmek gayretinden öteye gidemeyecektir.Oysa, o, yeteri kadar anlatılamayan altmış altı yıllık hayatında kazandığı sayısız zaferlerle, bir yandan Alçıtepe kahramanı ve Şark fatihi olarak anılmış diğer yandan yüreğine sığdırdığı binlerce çocukla yetimler babası olmuştur." )), row.names = c(NA, -6L), class = c("tbl_df", "tbl", "data.frame" ))

第一个 ID 作为 ID 列名,第一个文本作为文本列名。

我想在我的文件夹中创建一个包含**所有文件**的数据框,并将列名更改为该数据框中的 ID 和 Text 列。

你能帮我解决这个问题吗?

提前致谢,

这是使用purrr的另一个选项:

 # Reading the data df <- list.files(path = ".", pattern = ".txt", full.names = T) %>% purrr::map_dfr(read_tsv, col_names = FALSE)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM