簡體 English 中英

最簡單的方法/黑匣子根據現有的（標記的）數據集為短帖子建議標簽？

[英]Simplest way/blackbox to suggest tags for short posts based on an existing (labeled) dataset?

原文 2016-12-04 21:23:07 2 1 algorithm/ machine-learning/ text-analysis

我們評論了大約50-300個字符，其中預先標記了多個主題，例如“音樂”，“技術”以及特定的電影，藝術家等。

我們想訓練一種算法來自動標記將來的評論。 我們將手動調整建議以提高准確性，並隨着時間的推移手動添加更多標簽（例如，新藝術家）。 帖子將具有一個或多個標簽。

最簡單的方法是什么？ 我正在尋找一些簡單的操作，例如添加content和tag 1, tag 2... ，自動訓練，然后再給它文本以返回建議標簽的列表（最好是置信度為％）。

我們最終將獲得成千上萬個標簽，並可能有超過10萬個帖子。

我玩過一些東西（朴素的貝葉斯，LDA），但是我覺得對於這樣一個普通而簡單的用例，必須有一些更簡單的東西。 也許是圖書館或SaaS使其變得簡單明了。

1 個解決方案

考慮支持向量機 -通過提取詞干，停用詞， n -gramming （尤其是skip-ngramming可能會帶來實質性的提振）來進行初步特征提取。

當心：無論分類器多么出色，錯誤的特征提取都會立即使它變得愚蠢。

波特·史默

向用戶建議標簽列表的算法

[英]Algorithm to suggest a list of tags to users

僅使用這些黑盒功能對數組進行排序的最快方法？

[英]Fastest way to sort an array only using these blackbox functions?

清理數據集中的短段

[英]Cleaning up short segments in dataset

如何基於單向字符串或數組輸入生成短哈希（又名alphaid）？

[英]How to generate a short hash ( a.k.a alphaid ) based on string or array input in one-way?

根據另一個數據集過濾一個數據集

[英]Filtering a dataset based on another dataset

添加位mod n的最簡單方法？

[英]Simplest way to add bits mod n?

解決迷宮的最簡單方法，沒有可變性

[英]Simplest way to solve a maze without mutability

查找數組是否以子集結尾的最簡單方法

[英]Simplest way to find if an array ends with a subset

圍繞數字生成圓形圖案的最簡單方法

[英]Simplest way of generate a circular pattern around a number

找到重復陣列的最簡單方法是什么？

[英]What is simplest way to find repeat unit of array?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 向用戶建議標簽列表的算法僅使用這些黑盒功能對數組進行排序的最快方法？清理數據集中的短段如何基於單向字符串或數組輸入生成短哈希（又名alphaid）？根據另一個數據集過濾一個數據集添加位mod n的最簡單方法？解決迷宮的最簡單方法，沒有可變性查找數組是否以子集結尾的最簡單方法圍繞數字生成圓形圖案的最簡單方法找到重復陣列的最簡單方法是什么？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM