繁体   English   中英

主题建模上下文中的短文本

[英]Short text in the context of topic modeling

我正在研究主题建模,我很好奇在这种情况下究竟什么是短文本?例如,如果有一篇研究论文,研究论文的标题和摘要是否会被视为短文本?

我正在研究主题建模,我很好奇在这种情况下短文本到底是什么?

最近关于短文本主题建模的调查论文( Qiang 等人)提到了评估此类模型的几个数据集:搜索片段、StackOverflow 问题标题、推文等。 这些数据集中的文档平均有 5-14 个单词,最多 14-37 个单词。

例如,如果有一篇研究论文,研究论文的标题和摘要是否会被视为短文本?

可能有更大长度的论文摘要。 摘要通常有 200 或 300 个字,甚至更多。

应该提到的第二个论点是,一些短文本主题建模技术假设每个文本只有一个主题(例如,在Yin & Wang的论文中)。 我认为摘要中可能包含多个主题。 因此,一些假设每个文档一个主题的模型可能在论文摘要上表现不佳。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM