[英]Short text in the context of topic modeling
我正在研究主题建模,我很好奇在这种情况下究竟什么是短文本?例如,如果有一篇研究论文,研究论文的标题和摘要是否会被视为短文本?
我正在研究主题建模,我很好奇在这种情况下短文本到底是什么?
最近关于短文本主题建模的调查论文( Qiang 等人)提到了评估此类模型的几个数据集:搜索片段、StackOverflow 问题标题、推文等。 这些数据集中的文档平均有 5-14 个单词,最多 14-37 个单词。
例如,如果有一篇研究论文,研究论文的标题和摘要是否会被视为短文本?
可能有更大长度的论文摘要。 摘要通常有 200 或 300 个字,甚至更多。
应该提到的第二个论点是,一些短文本主题建模技术假设每个文本只有一个主题(例如,在Yin & Wang的论文中)。 我认为摘要中可能包含多个主题。 因此,一些假设每个文档一个主题的模型可能在论文摘要上表现不佳。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.