簡體   English   中英

最簡單的方法/黑匣子根據現有的(標記的)數據集為短帖子建議標簽?

[英]Simplest way/blackbox to suggest tags for short posts based on an existing (labeled) dataset?

我們評論了大約50-300個字符,其中預先標記了多個主題,例如“音樂”,“技術”以及特定的電影,藝術家等。

我們想訓練一種算法來自動標記將來的評論。 我們將手動調整建議以提高准確性,並隨着時間的推移手動添加更多標簽(例如,新藝術家)。 帖子將具有一個或多個標簽。

最簡單的方法是什么? 我正在尋找一些簡單的操作,例如添加contenttag 1, tag 2... ,自動訓練,然后再給它文本以返回建議標簽的列表(最好是置信度為%)。

我們最終將獲得成千上萬個標簽,並可能有超過10萬個帖子。

我玩過一些東西(朴素的貝葉斯,LDA),但是我覺得對於這樣一個普通而簡單的用例,必須有一些更簡單的東西。 也許是圖書館或SaaS使其變得簡單明了。

考慮支持向量機 -通過提取詞干停用詞n -gramming (尤其是skip-ngramming可能會帶來實質性的提振)來進行初步特征提取。

當心 :無論分類器多么出色,錯誤的特征提取都會立即使它變得愚蠢。

波特·史默

滾雪球

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM