簡體   English   中英

如何在 dataframe 中使用 TM package3AF1287F6B7D8ZAF1287F6B7D8Z 導出到我的 dtm dataframe 導出

[英]How can I append my corpus metadata onto my dtm dataframe export using the TM package in R

我目前正在使用 tm package 進行一些文本挖掘。 我希望能夠將我的文檔術語矩陣導出為帶有我的語料庫元數據(id 變量等)的數據框。這是我當前的工作流程:

  1. 導入數據集
  2. 轉換為語料庫
  3. 基本清潔
  4. 創建 TF-IDF 文檔術語矩陣
  5. 將 DTM 轉換為 dataframe
  6. 使用語料庫元數據導出 dataframe

5號是我卡住的地方。 我覺得 package 絕對可以做到這一點,但我找不到任何文檔。 使用 tm 創建 DTM 時元數據會丟失嗎?

在這里回答我自己的問題,以防其他人忽略我所做的同樣的事情。

tm 制作的 DTM 將 doc_id 變量存儲為行名。 因此,您可以將首選行名稱用於變量代碼來創建一個新變量,然后將其用作 append 任何其他元數據的鍵。

一種方法的示例:

dtm <- tibble::rownames_to_column(dtm, var = "doc_id")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM