[英]Text classification with imbalanced data
我試圖將 10000 個文本樣本分為 20 個類別。 其中 4 個類每個只有 1 個樣本,我嘗試使用 SMOTE 來解決這種不平衡問題,但是我無法為只有一個記錄的類生成新樣本,盡管我可以為具有 1 個以上樣本的類生成樣本。 有什么建議?
在這個答案中可以找到關於 SMOTE 的一個很好的解釋器(以及關於為什么它可能不適用於欠采樣類的問題的潛在答案)。
我認為這個問題不能通過現成的數據增強策略輕松解決。 一種可能性可能是簡單地復制示例,但這不會向您的模型添加新信息。
您也可以嘗試以下幾種其他策略:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.