簡體 English 中英

具有不平衡數據的文本分類

[英]Text classification with imbalanced data

原文 2020-03-16 02:07:04 1 1 machine-learning/ nlp/ data-science/ text-classification/ imbalanced-data

我試圖將 10000 個文本樣本分為 20 個類別。 其中 4 個類每個只有 1 個樣本，我嘗試使用 SMOTE 來解決這種不平衡問題，但是我無法為只有一個記錄的類生成新樣本，盡管我可以為具有 1 個以上樣本的類生成樣本。 有什么建議？

1 個解決方案

在這個答案中可以找到關於 SMOTE 的一個很好的解釋器（以及關於為什么它可能不適用於欠采樣類的問題的潛在答案）。

我認為這個問題不能通過現成的數據增強策略輕松解決。 一種可能性可能是簡單地復制示例，但這不會向您的模型添加新信息。

您也可以嘗試以下幾種其他策略：

William Wang 和 Diyi Yang在2015 年的這篇論文中描述了一種基於嵌入的增強技術（類似於 SMOTE 的理論，但在文本數據上效果更好）。
使用Marzieh Fadaee、Arianna Bisazza 和 Christof Monz在2017 年的這篇論文中描述的上下文詞嵌入，在#1 上更進一步。
使用同義詞替換庫，如 WordNetAug。

處理不平衡的分類數據？

[英]dealing with imbalanced classification data?

一種不平衡數據集的類別文本分類

[英]One Category Text Classification on imbalanced data-set

機器學習：不平衡數據分類

[英]Machine learning: Classification on imbalanced data

用於不平衡二元分類的過采樣數據的過程

[英]Process for oversampling data for imbalanced binary classification

如何處理高度不平衡的問題（文本）分類數據集？

[英]How to deal with a highly imbalanced Issue(Text) classification Dataset?

數據不平衡的多標簽圖像分類，如何拆分？

[英]Multi labeled image classification with imbalanced data, how to split it?

大型多類NLP分類的數據和樣本量不平衡

[英]Imbalanced data and sample size for large multi-class NLP classification

處理高度不平衡數據的正確方法——二元分類

[英]Proper way to handle highly imbalanced data - binary classification

在分類中，如何在數據集不平衡的情況下驗證模型？

[英]In classification, how do you validate the model in case of imbalanced data set?

不平衡數據集的分類步驟是什么？

[英]What is the steps of classification of imbalanced dataset?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 處理不平衡的分類數據？一種不平衡數據集的類別文本分類機器學習：不平衡數據分類用於不平衡二元分類的過采樣數據的過程如何處理高度不平衡的問題（文本）分類數據集？數據不平衡的多標簽圖像分類，如何拆分？大型多類NLP分類的數據和樣本量不平衡處理高度不平衡數據的正確方法——二元分類在分類中，如何在數據集不平衡的情況下驗證模型？不平衡數據集的分類步驟是什么？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM