繁体 English 中英

主题建模上下文中的短文本

[英]Short text in the context of topic modeling

原文 2020-06-09 10:29:10 9 1 python-3.x/ nlp/ lda/ topic-modeling/ nmf

我正在研究主题建模，我很好奇在这种情况下究竟什么是短文本？例如，如果有一篇研究论文，研究论文的标题和摘要是否会被视为短文本？

1 个解决方案

我正在研究主题建模，我很好奇在这种情况下短文本到底是什么？

最近关于短文本主题建模的调查论文（ Qiang 等人）提到了评估此类模型的几个数据集：搜索片段、StackOverflow 问题标题、推文等。 这些数据集中的文档平均有 5-14 个单词，最多 14-37 个单词。

例如，如果有一篇研究论文，研究论文的标题和摘要是否会被视为短文本？

可能有更大长度的论文摘要。 摘要通常有 200 或 300 个字，甚至更多。

应该提到的第二个论点是，一些短文本主题建模技术假设每个文本只有一个主题（例如，在Yin & Wang的论文中）。 我认为摘要中可能包含多个主题。 因此，一些假设每个文档一个主题的模型可能在论文摘要上表现不佳。

短文主题建模 Python

[英]Topic modeling on short texts Python

主题建模中的指令解释

[英]Instruction interpretation in topic modeling

将主题建模结果投射到数据框

[英]Cast topic modeling outcome to dataframe

使用 Spacy 进行主题建模 - 没有做出很好的预测

[英]Topic modeling with Spacy - not making very good predictions

如何创建附加主题建模可视化？

[英]How to create attached topic modeling visualization?

如何使用混淆矩阵评估 NMF 主题建模？

[英]How to evaluate NMF Topic Modeling by using Confusion Matrix?

如果我不知道主题的数量，我可以使用LDA主题建模吗？

[英]Can I use LDA topic modeling if I do not know the number of topics

主题建模错误（doc2bow 需要输入 unicode 令牌数组，而不是单个字符串）

[英]topic modeling error (doc2bow expects an array of unicode tokens on input, not a single string)

Gensim用短段文本摘要

[英]Text Summarization with Gensim with short paragraph

如何找到正文的主要主题

[英]How to Find the Main Topic of a Body of Text

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 短文主题建模 Python 主题建模中的指令解释将主题建模结果投射到数据框使用 Spacy 进行主题建模 - 没有做出很好的预测如何创建附加主题建模可视化？如何使用混淆矩阵评估 NMF 主题建模？如果我不知道主题的数量，我可以使用LDA主题建模吗？主题建模错误（doc2bow 需要输入 unicode 令牌数组，而不是单个字符串） Gensim用短段文本摘要如何找到正文的主要主题

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM