cost 246 ms
Gensim 的潜在狄利克雷分配实现 - Latent Dirichlet Allocation Implementation with Gensim

我正在做关于 LDA 主题建模的项目,我使用 gensim (python) 来做到这一点。 我阅读了一些参考资料,它说要获得最佳 model 主题,我们需要确定两个参数,传递次数和主题数。 真的吗? 对于传递的数量,我们将看到传递稳定的点,对于主题的数量,我们将看到哪个主题具有最低值。 是否有必要 ...

我如何测量用 R 中的 textmineR 包制作的 LDA 模型的困惑度分数? - How do i measure perplexity scores on a LDA model made with the textmineR package in R?

我在 R 中制作了一个 LDA 主题模型,使用 textmineR 包,如下所示。 那么问题是: 1. 我应该应用哪个函数来获得 textmineR 包中的困惑度分数? 我似乎找不到一个。 2. 我如何衡量不同数量主题(k)的复杂度分数? ...

R 弯曲的肘部/膝盖 - Elbow/knee in a curve in R

我有这个数据处理: 我知道有很多这样的问题,但我一直无法准确找到我的情况的答案。 在上图中,您可以看到潜在狄利克雷分配 model 的 3 到 25 个主题编号的困惑度计算。 我想获得其中最充分的值,这意味着我想找到肘部或膝盖,对于那些可能只被视为简单数字向量的值,其结果如下所示: 这就是 plot ...

如何计算文本分类中的困惑? - How to compute the perplexity in text classification?

我正在使用scikit学习,朴素贝叶斯和countvectorizer进行方言文本分类。 到目前为止,我仅对3种方言文本进行分类。 我要添加一个新的方言(或者实际上是这些方言的正式语言)。 问题是,我要添加的新文本与其他3种方言共享很多单词。 因此,我在一份研究文档中阅读了以下内容: ...

如何在开发数据上测试word2vec? - How can I test a word2vec over development data?

在计算机任务中,要求实现word2vec算法,以使用神经网络为某些单词生成密集向量。 我实现了神经网络,并通过训练数据对其进行了训练。 首先,如何在测试数据上对其进行测试? 该问题要求绘制一个图表,显示训练期间(时期)训练和测试数据的困惑性。 我可以为此做些损失,就像这样: 我是 ...

在Keras / Tensorflow中计算困惑和内存问题 - Calculating Perplexity and Memory Issues in Keras/Tensorflow

我想在每个训练时期后以困惑度评估我的模型。 我正在将Keras与Tensorflow后端一起使用。 问题在于,每次评估之后,都会使用越来越多的内存,但从未释放过。 因此,经过几个时期后,我的系统崩溃了。 如果我不使用keras和tensorflow函数,它将不会出现内存问题。 但这太慢 ...

如何使用Gibbs采样计算LDA的困惑度 - How to calculate perplexity for LDA with Gibbs sampling

我在R上的LDA主题模型上处理了200多个文档(共65k个字)的集合。 文档已经过预处理,并存储在文档项矩阵dtm 。 从理论上讲,我应该期望在语料库中找到5个不同的主题,但是我想计算困惑度得分,并查看模型如何随着主题数量的变化而变化。 下面是我使用的代码。 问题是,当我尝试计算困惑度分 ...

语言模型评估如何处理未知词? - How does language model evaluation work with unknown words?

因此,对于构建语言模型,将排名超出词汇量范围的频率较低的单词替换为“ UNK”。 我的问题是,如何评估基于“ UNK”评估概率的语言模型? 假设我们要在测试集上评估这种语言模型的困惑性,对于模型未知的单词,我们基于未知单词的“袋”评估获得的概率。 这似乎是有问题的,因为如果我们将词 ...

如何解释Sklearn LDA困惑度得分。 为什么它总是随着主题数量的增加而增加? - How to interpret Sklearn LDA perplexity score. Why it always increase as number of topics increase?

我尝试使用sklearn的LDA模型找到最佳主题数。 为此,我通过参考https://gist.github.com/tmylk/b71bf7d3ec2f203bfce2上的代码来计算困惑度。 但是,当我增加主题数量时,困惑总是非理性地增加。 我在实现中错了吗?还是仅仅提供了正确的价值 ...

使用 ldamulticore 确定 log_perplexity 以获得最佳主题数 - Determining log_perplexity using ldamulticore for optimum number of topics

我正在尝试使用 python 中的日志困惑来确定我的 LDA 模型的最佳主题数。 也就是说,我正在绘制一系列主题的日志困惑度并确定最小困惑度。 但是,我获得的图表对 log perplexity 具有负值,当它应该具有介于 0 和 1 之间的正值时。 ...

每次下降之间的困惑度计算都会上升 - Perplexity calculations rise between each significantly drop

我正在使用LSTM和tensorflow的翻译模型训练会话代理。 我使用分批训练,因此在每个纪元开始之后,训练数据的混乱程度明显下降。 可以用我批量读取数据的方式来解释这一下降,因为我保证训练数据中的每个训练对在每个时期都被完全处理一次。 当一个新纪元开始时,模型在先前纪元中所做的改进将在 ...

Tensorflow RNN PTB教程测试方法和状态重置不是错误的吗? - Isn't Tensorflow RNN PTB tutorial test measure and state reset wrong?

我对Tensorflow PTB RNN教程代码ptb_word_lm.py有两个问题。 以下代码块来自代码。 每个批次都可以重置状态吗? 在第133行中,我们将初始状态设置为零。 然后,在第153行,我们将零状态用作rnn步骤的起始状态。 这意味着批次的每个开始状态都设置为 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM