R package 適合識別與二元響應變量正相關的單詞

Question

我有一個包含三列的小標題：

酒——酒的名稱
wine_description - 描述葡萄酒的單詞（標點符號已被刪除）
目標 - 0 或 1 個變量 1 = 頂級葡萄酒，0 = 非頂級葡萄酒

如果我有興趣識別往往出現在頂級葡萄酒中的單詞（目標變量 = 1），我可能會使用 R package

我在 R Text Mining with R中遇到了 Text Mining ，但這似乎更多是關於情感分析，這似乎接近我想要實現的目標，但可能有點離題。 任何建議都會受到歡迎。

我的工作假設是，一旦我完成了一些基本分析，我就能夠將其納入邏輯回歸中。

Answer 1

您可以使用tidymodels框架進行這種建模，使用textrecipes package 進行數據預處理。 你最終會得到看起來像這樣的建模。

## ══Workflow════════════════════════════════════════════════════════════════
## Preprocessor: Recipe
## Model: logistic_reg()
## 
## ── Preprocessor ────────────────────────────────────────────────────────────
## 5 Recipe Steps
## 
## ● step_tokenize()
## ● step_stopwords()
## ● step_tokenfilter()
## ● step_tfidf()
## ● step_normalize()
## 
## ── Model ───────────────────────────────────────────────────────────────────
## Logistic Regression Model Specification (classification)
## 
## Main Arguments:
##   penalty = tune()
##   mixture = 1
## 
## Computational engine: glmnet

查看這個最近的教程以獲取更多詳細信息。

Answer 2

一個最小的工作示例會很好。 據我所知，您只需要一個 package 將您的數據轉換為文檔特征矩陣（dfm），使用您的 wine_description 變量作為文本字段。 我喜歡Quanteda這樣做。

以 dfm 作為預測變量的邏輯回歸將成為識別哪些詞用於描述頂級葡萄酒的一種方法。

R package 適合識別與二元響應變量正相關的單詞

問題描述

2 個解決方案

解決方案1
2 2020-05-11 15:55:32

解決方案2
1 2020-05-10 15:09:26

R package 適合識別與二元響應變量正相關的單詞

問題描述

2 個解決方案

解決方案1 2 2020-05-11 15:55:32

解決方案2 1 2020-05-10 15:09:26

解決方案1
2 2020-05-11 15:55:32

解決方案2
1 2020-05-10 15:09:26