给定计算二元组困惑度的公式(以及加 1 平滑的概率), 可能性 当句子中单词 per 的预测概率之一为 0 时,如何进行? 例如,如果test_bigram的概率为 ZeroDivisionError:除以零 ...
给定计算二元组困惑度的公式(以及加 1 平滑的概率), 可能性 当句子中单词 per 的预测概率之一为 0 时,如何进行? 例如,如果test_bigram的概率为 ZeroDivisionError:除以零 ...
我正在做关于 LDA 主题建模的项目,我使用 gensim (python) 来做到这一点。 我阅读了一些参考资料,它说要获得最佳 model 主题,我们需要确定两个参数,传递次数和主题数。 真的吗? 对于传递的数量,我们将看到传递稳定的点,对于主题的数量,我们将看到哪个主题具有最低值。 是否有必要 ...
我看到一些 github 评论说 model() 调用损失的 output 是困惑的形式: https://github.com/huggingface/transformers/issues/473 但是当我查看相关代码时... https://huggingface.co/transforme ...
我在 R 中制作了一个 LDA 主题模型,使用 textmineR 包,如下所示。 那么问题是: 1. 我应该应用哪个函数来获得 textmineR 包中的困惑度分数? 我似乎找不到一个。 2. 我如何衡量不同数量主题(k)的复杂度分数? ...
我有这个数据处理: 我知道有很多这样的问题,但我一直无法准确找到我的情况的答案。 在上图中,您可以看到潜在狄利克雷分配 model 的 3 到 25 个主题编号的困惑度计算。 我想获得其中最充分的值,这意味着我想找到肘部或膝盖,对于那些可能只被视为简单数字向量的值,其结果如下所示: 这就是 plot ...
我正在使用scikit学习,朴素贝叶斯和countvectorizer进行方言文本分类。 到目前为止,我仅对3种方言文本进行分类。 我要添加一个新的方言(或者实际上是这些方言的正式语言)。 问题是,我要添加的新文本与其他3种方言共享很多单词。 因此,我在一份研究文档中阅读了以下内容: ...
在计算机任务中,要求实现word2vec算法,以使用神经网络为某些单词生成密集向量。 我实现了神经网络,并通过训练数据对其进行了训练。 首先,如何在测试数据上对其进行测试? 该问题要求绘制一个图表,显示训练期间(时期)训练和测试数据的困惑性。 我可以为此做些损失,就像这样: 我是 ...
我正在为哈佛图书馆书名和主题建模。 我使用 Gensim Mallet Wrapper 用 Mallet 的 LDA 建模。 当我尝试获取 Coherence 和 Perplexity 值以查看模型有多好时,perplexity 无法计算,但有以下异常。 如果我使用 Gensim 的内置 LDA ...
我想在每个训练时期后以困惑度评估我的模型。 我正在将Keras与Tensorflow后端一起使用。 问题在于,每次评估之后,都会使用越来越多的内存,但从未释放过。 因此,经过几个时期后,我的系统崩溃了。 如果我不使用keras和tensorflow函数,它将不会出现内存问题。 但这太慢 ...
我使用Keras LSTM创建了一个语言模型,现在我想评估它是否很好,所以我想计算困惑度。 用Python计算模型的困惑度的最佳方法是什么? ...
我正在尝试评估主题建模(LDA)。 执行困惑性函数时遇到错误,例如:错误(函数(类,fdef,mtable):无法为签名“ LDA_Gibbs”,“数字”找到函数“困惑性”的继承方法,请帮助解决此问题。 ...
我在R上的LDA主题模型上处理了200多个文档(共65k个字)的集合。 文档已经过预处理,并存储在文档项矩阵dtm 。 从理论上讲,我应该期望在语料库中找到5个不同的主题,但是我想计算困惑度得分,并查看模型如何随着主题数量的变化而变化。 下面是我使用的代码。 问题是,当我尝试计算困惑度分 ...
因此,对于构建语言模型,将排名超出词汇量范围的频率较低的单词替换为“ UNK”。 我的问题是,如何评估基于“ UNK”评估概率的语言模型? 假设我们要在测试集上评估这种语言模型的困惑性,对于模型未知的单词,我们基于未知单词的“袋”评估获得的概率。 这似乎是有问题的,因为如果我们将词 ...
我尝试使用sklearn的LDA模型找到最佳主题数。 为此,我通过参考https://gist.github.com/tmylk/b71bf7d3ec2f203bfce2上的代码来计算困惑度。 但是,当我增加主题数量时,困惑总是非理性地增加。 我在实现中错了吗?还是仅仅提供了正确的价值 ...
在Tensorflow中,我得到的输出为0.602129或0.663941。 似乎值越接近0意味着模型越好,但是似乎困惑应该被计算为2 ^损失,这意味着损失为负。 这没有任何意义。 ...
我正在尝试使用 python 中的日志困惑来确定我的 LDA 模型的最佳主题数。 也就是说,我正在绘制一系列主题的日志困惑度并确定最小困惑度。 但是,我获得的图表对 log perplexity 具有负值,当它应该具有介于 0 和 1 之间的正值时。 ...
我正在使用LSTM和tensorflow的翻译模型训练会话代理。 我使用分批训练,因此在每个纪元开始之后,训练数据的混乱程度明显下降。 可以用我批量读取数据的方式来解释这一下降,因为我保证训练数据中的每个训练对在每个时期都被完全处理一次。 当一个新纪元开始时,模型在先前纪元中所做的改进将在 ...
我对Tensorflow PTB RNN教程代码ptb_word_lm.py有两个问题。 以下代码块来自代码。 每个批次都可以重置状态吗? 在第133行中,我们将初始状态设置为零。 然后,在第153行,我们将零状态用作rnn步骤的起始状态。 这意味着批次的每个开始状态都设置为 ...
假设我们在此基础上构建了一个模型: 从困惑公式( https://web.stanford.edu/class/cs124/lec/languagemodeling.pdf ) 应用逆对数公式之和得到内部变量,然后取第n个根,困惑数异常小: 用数据中未找到的句子再试一次: 并再次尝试完 ...