簡體   English   中英

如何在 R 中將具有兩個制表符分隔列的 multiple.txt 文件讀取到一個 dataframe 中?

[英]How can I read multiple .txt files with two tab separated columns into one dataframe in R?

我有多個 .txt 文件。 這些文本文件有兩個制表符分隔的列,第一個給出語音的 ID,第二個是語音的純文本。 我想閱讀它們並將它們全部與 R 合並以創建一個語料庫。

當我像這樣閱讀 any individual.txt 文件時:

 df <- read_tsv("XXX.txt")

我最終是這樣的:

輸入(頭(df))

 structure(list(`tbmm-2021-01-26s01p001` = c("tbmm-2021-01-26s01p002", "tbmm-2021-01-26s01p003", "tbmm-2021-01-26s01p004", "tbmm-2021-01-26s01p005", "tbmm-2021-01-26s01p006", "tbmm-2021-01-26s01p007"), `Türkiye Büyük Millet Meclisinin 41'inci Birleşimini açıyorum.` = c("Toplantı yeter sayısı vardır, görüşmelere başlıyoruz.", "Gündeme geçmeden önce 3 sayın milletvekiline gündem dışı söz vereceğim.", "Gündem dışı ilk söz, Türkiye Büyük Millet Meclisi eski Başkanı, İstiklal Savaşı gazisi Kâzım Karabekir'in vefat yıl dönümü münasebetiyle söz isteyen Karaman Milletvekili Sayın Selman Oğuzhan Eser'e aittir.", "Buyurun Sayın Eser.", "Sayın Başkan, değerli milletvekilleri; İstiklal Savaşı gazisi, Türkiye Büyük Millet Meclisi Başkanı Kâzım Karabekir Paşamızın vefatının 73'üncü seneidevriyesinde onun ölçülü ve bizlere rehber olan hayatı hakkında gündem dışı söz almış bulunuyorum.Bu vesileyle yüce Meclisi ve aziz milletimizi saygıyla selamlıyorum.", "Millî mücadele yıllarının unutulmaz kahramanlarından Kâzım Karabekir Paşa'mızın bugüne kadar anlatılamayan fikirleri ve hayatı hakkında bugün söyleyeceğimiz her söz ona olan minnetimizi ifade etmek gayretinden öteye gidemeyecektir.Oysa, o, yeteri kadar anlatılamayan altmış altı yıllık hayatında kazandığı sayısız zaferlerle, bir yandan Alçıtepe kahramanı ve Şark fatihi olarak anılmış diğer yandan yüreğine sığdırdığı binlerce çocukla yetimler babası olmuştur." )), row.names = c(NA, -6L), class = c("tbl_df", "tbl", "data.frame" ))

第一個 ID 作為 ID 列名,第一個文本作為文本列名。

我想在我的文件夾中創建一個包含**所有文件**的數據框,並將列名更改為該數據框中的 ID 和 Text 列。

你能幫我解決這個問題嗎?

提前致謝,

這是使用purrr的另一個選項:

 # Reading the data df <- list.files(path = ".", pattern = ".txt", full.names = T) %>% purrr::map_dfr(read_tsv, col_names = FALSE)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM