如何將標記化的單詞重新連接到 R 數據框中的列中

Question

我有一個數據框，其中包含以前標記的單詞，如下所示。 復制代碼：

df <- data.frame (id  = c("1", "2","3"),
                  text = c("['I', 'like', 'apple']", "['we', 'go', 'swimming']", "['ask', 'questions']")
                  )

：

id   text
1   ["I", "like", "apple"]
2   ["we", "go", "swimming"]
3   ["ask", "questions"]

原始數據幀是在預處理（包括標記化）原始文本數據后在 Python 中獲得的。
我想將這些標記合並回一個句子中，如下所示

id   text
1   I like apple
2   we go swimming
3   ask questions

我嘗試使用 paste() 函數df$text_new<-paste(df$text, sep = " ") ，但它沒有工作，仍然返回相同的結果。

Answer 1

您可以將它們與 tidyr separate()然后unite() 。 您必須為最長句子中的每個單詞提供一個足夠長的字符向量into = -- 我用letters得到 26 -- 然后引用第一個和最后一個 ( a:z )。

library(tidyr)

df <- data.frame (id  = c("1", "2","3"),
                  text = c("['I', 'like', 'apple']", "['we', 'go', 'swimming']", "['ask', 'questions']"))

df %>% 
  separate(text, into = letters, fill = "right") %>% 
  unite(text, a:z, sep = " ", na.rm = TRUE)

#>   id            text
#> 1  1    I like apple 
#> 2  2  we go swimming 
#> 3  3   ask questions

^{由reprex 包於 2022-05-26 創建 (v2.0.1)}

如何將標記化的單詞重新連接到 R 數據框中的列中

問題描述

1 個解決方案

解決方案1
1 已采納 2022-05-26 22:42:14

如何將標記化的單詞重新連接到 R 數據框中的列中

問題描述

1 個解決方案

解決方案1 1 已采納 2022-05-26 22:42:14

解決方案1
1 已采納 2022-05-26 22:42:14