简体   繁体   中英

How can I read multiple .txt files with two tab separated columns into one dataframe in R?

I have multiple.txt files. These text files have two TAB-separated columns, the first one giving the ID of the speech, and the second the plain text of the speech. I want to read and merge them all with R to create a corpus.

When I read the any individual.txt file like this:

 df <- read_tsv("XXX.txt")

I ended up like this:

dput(head(df))

 structure(list(`tbmm-2021-01-26s01p001` = c("tbmm-2021-01-26s01p002", "tbmm-2021-01-26s01p003", "tbmm-2021-01-26s01p004", "tbmm-2021-01-26s01p005", "tbmm-2021-01-26s01p006", "tbmm-2021-01-26s01p007"), `Türkiye Büyük Millet Meclisinin 41'inci Birleşimini açıyorum.` = c("Toplantı yeter sayısı vardır, görüşmelere başlıyoruz.", "Gündeme geçmeden önce 3 sayın milletvekiline gündem dışı söz vereceğim.", "Gündem dışı ilk söz, Türkiye Büyük Millet Meclisi eski Başkanı, İstiklal Savaşı gazisi Kâzım Karabekir'in vefat yıl dönümü münasebetiyle söz isteyen Karaman Milletvekili Sayın Selman Oğuzhan Eser'e aittir.", "Buyurun Sayın Eser.", "Sayın Başkan, değerli milletvekilleri; İstiklal Savaşı gazisi, Türkiye Büyük Millet Meclisi Başkanı Kâzım Karabekir Paşamızın vefatının 73'üncü seneidevriyesinde onun ölçülü ve bizlere rehber olan hayatı hakkında gündem dışı söz almış bulunuyorum.Bu vesileyle yüce Meclisi ve aziz milletimizi saygıyla selamlıyorum.", "Millî mücadele yıllarının unutulmaz kahramanlarından Kâzım Karabekir Paşa'mızın bugüne kadar anlatılamayan fikirleri ve hayatı hakkında bugün söyleyeceğimiz her söz ona olan minnetimizi ifade etmek gayretinden öteye gidemeyecektir.Oysa, o, yeteri kadar anlatılamayan altmış altı yıllık hayatında kazandığı sayısız zaferlerle, bir yandan Alçıtepe kahramanı ve Şark fatihi olarak anılmış diğer yandan yüreğine sığdırdığı binlerce çocukla yetimler babası olmuştur." )), row.names = c(NA, -6L), class = c("tbl_df", "tbl", "data.frame" ))

The first ID comes as ID column name and first text as text column name here.

I want to create a data frame that contain **all the files ** in my folder and change the column names as ID and Text column in that data frame.

Could you help me with this issue?

Thanks in advance,

Here is another option using purrr :

 # Reading the data df <- list.files(path = ".", pattern = ".txt", full.names = T) %>% purrr::map_dfr(read_tsv, col_names = FALSE)

The technical post webpages of this site follow the CC BY-SA 4.0 protocol. If you need to reprint, please indicate the site URL or the original address.Any question please contact:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM