![](/img/trans.png)
[英]Keras Multi-class Multi-label image classification: handle a mix of independent and dependent labels & non-binary output
[英]Multi-label text classification with non-uniform distribution of class labels for every train data
好吧,首先,澄清我是否正確理解您的問題。 您有句子=[sent1, sent2, ... sentn] 並且您想將它們分類為這六個標簽labels=[l1,l2,...,l6]。 您的數據不是標簽本身,而是文本中包含該標簽的概率。 你還提到六個標簽來自人工注釋(我不知道你說的10個人評論是什么意思,我猜是注釋)
如果是這種情況,您可以使用多標簽分類或多目標回歸視角來處理問題。 在這兩種情況下,我都會處理您可以對數據執行的操作:
訓練模型:您可以針對此任務使用淺層模型和深層模型。 您需要一個可以接收句子作為輸入並預測六個標簽或六個概率的模型。 我建議你看看這個例子,它可以成為你工作的一個很好的起點。 作者提供了有關如何使用深度神經網絡構建多標簽文本分類器的教程。 他最終基本上構建了一個 LSTM 和一個前饋層來對標簽進行分類。 如果您決定使用回歸而不是分類,您可以在最后刪除激活。
最好的結果很可能是通過深度神經網絡獲得的,所以我發給你的文章可以很好地工作。 我還建議您查看最先進的文本分類方法,例如 BERT 或 XLNET。 我使用BERT實現了一個多標簽分類方法,也許對你有幫助。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.