简体   繁体   English

如何在 R 中将具有两个制表符分隔列的 multiple.txt 文件读取到一个 dataframe 中?

[英]How can I read multiple .txt files with two tab separated columns into one dataframe in R?

I have multiple.txt files.我有多个 .txt 文件。 These text files have two TAB-separated columns, the first one giving the ID of the speech, and the second the plain text of the speech.这些文本文件有两个制表符分隔的列,第一个给出语音的 ID,第二个是语音的纯文本。 I want to read and merge them all with R to create a corpus.我想阅读它们并将它们全部与 R 合并以创建一个语料库。

When I read the any individual.txt file like this:当我像这样阅读 any individual.txt 文件时:

 df <- read_tsv("XXX.txt")

I ended up like this:我最终是这样的:

dput(head(df))输入(头(df))

 structure(list(`tbmm-2021-01-26s01p001` = c("tbmm-2021-01-26s01p002", "tbmm-2021-01-26s01p003", "tbmm-2021-01-26s01p004", "tbmm-2021-01-26s01p005", "tbmm-2021-01-26s01p006", "tbmm-2021-01-26s01p007"), `Türkiye Büyük Millet Meclisinin 41'inci Birleşimini açıyorum.` = c("Toplantı yeter sayısı vardır, görüşmelere başlıyoruz.", "Gündeme geçmeden önce 3 sayın milletvekiline gündem dışı söz vereceğim.", "Gündem dışı ilk söz, Türkiye Büyük Millet Meclisi eski Başkanı, İstiklal Savaşı gazisi Kâzım Karabekir'in vefat yıl dönümü münasebetiyle söz isteyen Karaman Milletvekili Sayın Selman Oğuzhan Eser'e aittir.", "Buyurun Sayın Eser.", "Sayın Başkan, değerli milletvekilleri; İstiklal Savaşı gazisi, Türkiye Büyük Millet Meclisi Başkanı Kâzım Karabekir Paşamızın vefatının 73'üncü seneidevriyesinde onun ölçülü ve bizlere rehber olan hayatı hakkında gündem dışı söz almış bulunuyorum.Bu vesileyle yüce Meclisi ve aziz milletimizi saygıyla selamlıyorum.", "Millî mücadele yıllarının unutulmaz kahramanlarından Kâzım Karabekir Paşa'mızın bugüne kadar anlatılamayan fikirleri ve hayatı hakkında bugün söyleyeceğimiz her söz ona olan minnetimizi ifade etmek gayretinden öteye gidemeyecektir.Oysa, o, yeteri kadar anlatılamayan altmış altı yıllık hayatında kazandığı sayısız zaferlerle, bir yandan Alçıtepe kahramanı ve Şark fatihi olarak anılmış diğer yandan yüreğine sığdırdığı binlerce çocukla yetimler babası olmuştur." )), row.names = c(NA, -6L), class = c("tbl_df", "tbl", "data.frame" ))

The first ID comes as ID column name and first text as text column name here.第一个 ID 作为 ID 列名,第一个文本作为文本列名。

I want to create a data frame that contain **all the files ** in my folder and change the column names as ID and Text column in that data frame.我想在我的文件夹中创建一个包含**所有文件**的数据框,并将列名更改为该数据框中的 ID 和 Text 列。

Could you help me with this issue?你能帮我解决这个问题吗?

Thanks in advance,提前致谢,

Here is another option using purrr :这是使用purrr的另一个选项:

 # Reading the data df <- list.files(path = ".", pattern = ".txt", full.names = T) %>% purrr::map_dfr(read_tsv, col_names = FALSE)

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在 r 中读取双分号分隔的 .txt? - How can I read a double-semicolon-separated .txt in r? 如何在 R 中读取具有不同列数的多个 txt 文件 - How to read in multiple txt files in R with differing number of columns 加载列由 | 分隔的 Multiple.txt 文件 R 中的字符 - Loading Multiple .txt files where columns are separated by | character in R 如何读取R中的制表符分隔文件以生成散点图 - How to read tab separated files in R to generate Scatterplot 我如何在R中读取多个文件 - How can I read multiple files in R Read Multiple txt files in an order and combine them into one dataframe but label the origin of each row in the new generated dataframe in r - Read Multiple txt files in an order and combine them into one dataframe but label the origin of each row in the new generated dataframe in r 将多个 csv 文件(并在每个 csv 文件中跳过 2 列)读入 R 中的一个数据帧? - Read multiple csv files (and skip 2 columns in each csv file) into one dataframe in R? 如何在R中的数据框中选择两列? - How can I select two columns in a dataframe in R? 如何在 R 中将多个.txt 文件中的数据合并为一个 dataframe(需要转置) - How to combine data from multiple .txt files into one dataframe (transposing required) in R 如何在 R 中将一列 dataframe 重塑为 4 列? - How can I reshape one column dataframe into 4 columns in R?
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM