"Gensim LDA 连贯性得分 Nan"

Question

我创建了一个 Gensim LDA 模型，如本教程所示： https<\/a> :\/\/www.machinelearningplus.com\/nlp\/topic-modeling-gensim-python\/

lda_model = gensim.models.LdaMulticore(data_df['bow_corpus'], num_topics=10, id2word=dictionary, random_state=100, chunksize=100, passes=10, per_word_topics=True)

Answer 1

解决了！ Coherence Model 需要原始文本，而不是提供给 LDA_Model 的训练语料库 - 所以当我运行这个时：

coherence_model_lda = CoherenceModel(model=lda_model, texts=data_df['corpus'].tolist(), dictionary=dictionary, coherence='c_v')
with np.errstate(invalid='ignore'):
    lda_score = coherence_model_lda.get_coherence()

我的连贯性得分为：0.462

希望这可以帮助其他人犯同样的错误。 谢谢！

Answer 2

文档（ https://radimrehurek.com/gensim/models/coherencemodel.html ）说提供“标记化文本”（str列表列表） - 这些应该是你的文本分成你提供的字典中的单个单词到 CoherenceModel。 如果您提供未标记化的全文，则查找词典中没有词的条目。

Answer 3

它对我不起作用。 尝试了很多东西，但连贯性仍然很差。 有人帮忙吗？

"Gensim LDA 连贯性得分 Nan"

问题描述

2 个解决方案

解决方案1
8 已采纳 2020-02-16 08:45:14

解决方案2
0 2021-06-02 15:13:43

解决方案3
-2 2022-01-09 18:16:16

"Gensim LDA 连贯性得分 Nan"

问题描述

2 个解决方案

解决方案1 8 已采纳 2020-02-16 08:45:14

解决方案2 0 2021-06-02 15:13:43

解决方案3 -2 2022-01-09 18:16:16

解决方案1
8 已采纳 2020-02-16 08:45:14

解决方案2
0 2021-06-02 15:13:43

解决方案3
-2 2022-01-09 18:16:16