标签[perplexity] - 堆栈内存溢出

如果给定二元组的概率为0，如何找到二元组的困惑度 - How to find perplexity of bigram if probability of given bigram is 0

给定计算二元组困惑度的公式（以及加 1 平滑的概率），可能性当句子中单词 per 的预测概率之一为 0 时，如何进行？例如，如果test_bigram的概率为 ZeroDivisionError：除以零 ...

Gensim 的潜在狄利克雷分配实现 - Latent Dirichlet Allocation Implementation with Gensim

我正在做关于 LDA 主题建模的项目，我使用 gensim (python) 来做到这一点。我阅读了一些参考资料，它说要获得最佳 model 主题，我们需要确定两个参数，传递次数和主题数。真的吗？对于传递的数量，我们将看到传递稳定的点，对于主题的数量，我们将看到哪个主题具有最低值。是否有必要 ...

Huggingface gpt2语言model代码哪里计算perplexity？ - Where is perplexity calculated in the Huggingface gpt2 language model code?

我看到一些 github 评论说 model() 调用损失的 output 是困惑的形式： https://github.com/huggingface/transformers/issues/473 但是当我查看相关代码时... https://huggingface.co/transforme ...

我如何测量用 R 中的 textmineR 包制作的 LDA 模型的困惑度分数？ - How do i measure perplexity scores on a LDA model made with the textmineR package in R?

我在 R 中制作了一个 LDA 主题模型，使用 textmineR 包，如下所示。那么问题是： 1. 我应该应用哪个函数来获得 textmineR 包中的困惑度分数？我似乎找不到一个。 2. 我如何衡量不同数量主题（k）的复杂度分数？ ...

R 弯曲的肘部/膝盖 - Elbow/knee in a curve in R

我有这个数据处理：我知道有很多这样的问题，但我一直无法准确找到我的情况的答案。在上图中，您可以看到潜在狄利克雷分配 model 的 3 到 25 个主题编号的困惑度计算。我想获得其中最充分的值，这意味着我想找到肘部或膝盖，对于那些可能只被视为简单数字向量的值，其结果如下所示：这就是 plot ...

如何计算文本分类中的困惑？ - How to compute the perplexity in text classification?

我正在使用scikit学习，朴素贝叶斯和countvectorizer进行方言文本分类。到目前为止，我仅对3种方言文本进行分类。我要添加一个新的方言（或者实际上是这些方言的正式语言）。问题是，我要添加的新文本与其他3种方言共享很多单词。因此，我在一份研究文档中阅读了以下内容： ...

如何在开发数据上测试word2vec？ - How can I test a word2vec over development data?

在计算机任务中，要求实现word2vec算法，以使用神经网络为某些单词生成密集向量。我实现了神经网络，并通过训练数据对其进行了训练。首先，如何在测试数据上对其进行测试？该问题要求绘制一个图表，显示训练期间（时期）训练和测试数据的困惑性。我可以为此做些损失，就像这样：我是 ...

使用 Mallet Perplexity 进行 Gensim 主题建模 - Gensim Topic Modeling with Mallet Perplexity

我正在为哈佛图书馆书名和主题建模。我使用 Gensim Mallet Wrapper 用 Mallet 的 LDA 建模。当我尝试获取 Coherence 和 Perplexity 值以查看模型有多好时，perplexity 无法计算，但有以下异常。如果我使用 Gensim 的内置 LDA ...

在Keras / Tensorflow中计算困惑和内存问题 - Calculating Perplexity and Memory Issues in Keras/Tensorflow

我想在每个训练时期后以困惑度评估我的模型。我正在将Keras与Tensorflow后端一起使用。问题在于，每次评估之后，都会使用越来越多的内存，但从未释放过。因此，经过几个时期后，我的系统崩溃了。如果我不使用keras和tensorflow函数，它将不会出现内存问题。但这太慢 ...

检查语言模型的困惑 - Check perplexity of a Language Model

我使用Keras LSTM创建了一个语言模型，现在我想评估它是否很好，所以我想计算困惑度。用Python计算模型的困惑度的最佳方法是什么？ ...

执行困惑度函数评估LDA模型时出错 - Getting an error while executing perplexity function to evaluate the LDA model

我正在尝试评估主题建模（LDA）。执行困惑性函数时遇到错误，例如：错误（函数（类，fdef，mtable）：无法为签名“ LDA_Gibbs”，“数字”找到函数“困惑性”的继承方法，请帮助解决此问题。 ...

如何使用Gibbs采样计算LDA的困惑度 - How to calculate perplexity for LDA with Gibbs sampling

我在R上的LDA主题模型上处理了200多个文档（共65k个字）的集合。文档已经过预处理，并存储在文档项矩阵dtm 。从理论上讲，我应该期望在语料库中找到5个不同的主题，但是我想计算困惑度得分，并查看模型如何随着主题数量的变化而变化。下面是我使用的代码。问题是，当我尝试计算困惑度分 ...

语言模型评估如何处理未知词？ - How does language model evaluation work with unknown words?

因此，对于构建语言模型，将排名超出词汇量范围的频率较低的单词替换为“ UNK”。我的问题是，如何评估基于“ UNK”评估概率的语言模型？假设我们要在测试集上评估这种语言模型的困惑性，对于模型未知的单词，我们基于未知单词的“袋”评估获得的概率。这似乎是有问题的，因为如果我们将词 ...

如何解释Sklearn LDA困惑度得分。为什么它总是随着主题数量的增加而增加？ - How to interpret Sklearn LDA perplexity score. Why it always increase as number of topics increase?

我尝试使用sklearn的LDA模型找到最佳主题数。为此，我通过参考https://gist.github.com/tmylk/b71bf7d3ec2f203bfce2上的代码来计算困惑度。但是，当我增加主题数量时，困惑总是非理性地增加。我在实现中错了吗？还是仅仅提供了正确的价值 ...

语言模型的困惑度如何在0和1之间？ - How can the perplexity of a language model be between 0 and 1?

在Tensorflow中，我得到的输出为0.602129或0.663941。似乎值越接近0意味着模型越好，但是似乎困惑应该被计算为2 ^损失，这意味着损失为负。这没有任何意义。 ...

使用 ldamulticore 确定 log_perplexity 以获得最佳主题数 - Determining log_perplexity using ldamulticore for optimum number of topics

我正在尝试使用 python 中的日志困惑来确定我的 LDA 模型的最佳主题数。也就是说，我正在绘制一系列主题的日志困惑度并确定最小困惑度。但是，我获得的图表对 log perplexity 具有负值，当它应该具有介于 0 和 1 之间的正值时。 ...

每次下降之间的困惑度计算都会上升 - Perplexity calculations rise between each significantly drop

我正在使用LSTM和tensorflow的翻译模型训练会话代理。我使用分批训练，因此在每个纪元开始之后，训练数据的混乱程度明显下降。可以用我批量读取数据的方式来解释这一下降，因为我保证训练数据中的每个训练对在每个时期都被完全处理一次。当一个新纪元开始时，模型在先前纪元中所做的改进将在 ...

Tensorflow RNN PTB教程测试方法和状态重置不是错误的吗？ - Isn't Tensorflow RNN PTB tutorial test measure and state reset wrong?

我对Tensorflow PTB RNN教程代码ptb_word_lm.py有两个问题。以下代码块来自代码。每个批次都可以重置状态吗？在第133行中，我们将初始状态设置为零。然后，在第153行，我们将零状态用作rnn步骤的起始状态。这意味着批次的每个开始状态都设置为 ...

如何使用 KenLM 计算困惑度？ - How to compute perplexity using KenLM?

假设我们在此基础上构建了一个模型：从困惑公式（ https://web.stanford.edu/class/cs124/lec/languagemodeling.pdf ）应用逆对数公式之和得到内部变量，然后取第n个根，困惑数异常小：用数据中未找到的句子再试一次：并再次尝试完 ...