簡體   English   中英

具有不平衡數據的文本分類

[英]Text classification with imbalanced data

我試圖將 10000 個文本樣本分為 20 個類別。 其中 4 個類每個只有 1 個樣本,我嘗試使用 SMOTE 來解決這種不平衡問題,但是我無法為只有一個記錄的類生成新樣本,盡管我可以為具有 1 個以上樣本的類生成樣本。 有什么建議?

這個答案中可以找到關於 SMOTE 的一個很好的解釋器(以及關於為什么它可能不適用於欠采樣類的問題的潛在答案)。

我認為這個問題不能通過現成的數據增強策略輕松解決。 一種可能性可能是簡單地復制示例,但這不會向您的模型添加新信息。

您也可以嘗試以下幾種其他策略:

  1. William Wang 和 Diyi Yang2015 年的這篇論文中描述了一種基於嵌入的增強技術(類似於 SMOTE 的理論,但在文本數據上效果更好)。
  2. 使用Marzieh Fadaee、Arianna Bisazza 和 Christof Monz2017 年的這篇論文中描述的上下文詞嵌入,在#1 上更進一步
  3. 使用同義詞替換庫,如 WordNetAug。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM