簡體   English   中英

每個訓練數據的類標簽分布不均勻的多標簽文本分類

[英]Multi-label text classification with non-uniform distribution of class labels for every train data

我有一個多標簽分類問題,我想用六個標簽對文本進行分類,每個文本可以有一到六個標簽,但這個標簽分布不相等。 例如,10 個人將句子 1 注釋如下:

在此處輸入圖片說明

這些標簽是該類的投票數。 我可以將它們正常化,例如悲傷 0.7、憤怒 0.2、恐懼 0.1、快樂 0.0,...

這個問題的最佳分類器是什么? 標簽的最佳類型是什么?我的意思是我應該對它們進行標准化還是不標准化?

這種標簽概率不等的多標簽分類問題,我應該搜索哪些關鍵詞?

好吧,首先,澄清我是否正確理解您的問題。 您有句子=[sent1, sent2, ... sentn] 並且您想將它們分類為這六個標簽labels=[l1,l2,...,l6]。 您的數據不是標簽本身,而是文本中包含該標簽的概率。 你還提到六個標簽來自人工注釋(我不知道你說的10個人評論是什么意思,我猜是注釋)

如果是這種情況,您可以使用多標簽分類或多目標回歸視角來處理問題。 在這兩種情況下,我都會處理您可以對數據執行的操作:

  1. 多標簽分類:在這種情況下,您需要為每個句子定義類別,以便您可以訓練您的模型。 現在你只有概率。 您可以通過創建閾值來做到這一點,高於閾值的標簽的概率可以被視為句子的標簽。 您可以在此處閱讀有關評估指標的更多信息。
  2. 多目標回歸:在這種情況下,您不需要定義類別,您只需使用訓練輸入,我們使用數據來預測每個標簽的概率。 考慮到您的數據收集,我認為這是一個更好、更容易的問題。 如果您想了解更多關於多目標回歸問題的信息,您可以在此處閱讀更多相關信息,但是他們在本教程中使用的模型並不是最先進的(請注意)。

訓練模型:您可以針對此任務使用淺層模型和深層模型。 您需要一個可以接收句子作為輸入並預測六個標簽或六個概率的模型。 我建議你看看這個例子,它可以成為你工作的一個很好的起點。 作者提供了有關如何使用深度神經網絡構建多標簽文本分類器的教程。 他最終基本上構建了一個 LSTM 和一個前饋層來對標簽進行分類。 如果您決定使用回歸而不是分類,您可以在最后刪除激活。

最好的結果很可能是通過深度神經網絡獲得的,所以我發給你的文章可以很好地工作。 我還建議您查看最先進的文本分類方法,例如 BERT 或 XLNET。 我使用BERT實現了一個多標簽分類方法,也許對你有幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM