cost 466 ms
Gensim 的潛在狄利克雷分配實現

[英]Latent Dirichlet Allocation Implementation with Gensim

我正在做關於 LDA 主題建模的項目,我使用 gensim (python) 來做到這一點。 我閱讀了一些參考資料,它說要獲得最佳 model 主題,我們需要確定兩個參數,傳遞次數和主題數。 真的嗎? 對於傳遞的數量,我們將看到傳遞穩定的點,對於主題的數量,我們將看到哪個主題具有最低值。 是否有必要 ...

我如何測量用 R 中的 textmineR 包制作的 LDA 模型的困惑度分數?

[英]How do i measure perplexity scores on a LDA model made with the textmineR package in R?

我在 R 中制作了一個 LDA 主題模型,使用 textmineR 包,如下所示。 那么問題是: 1. 我應該應用哪個函數來獲得 textmineR 包中的困惑度分數? 我似乎找不到一個。 2. 我如何衡量不同數量主題(k)的復雜度分數? ...

R 彎曲的肘部/膝蓋

[英]Elbow/knee in a curve in R

我有這個數據處理: 我知道有很多這樣的問題,但我一直無法准確找到我的情況的答案。 在上圖中,您可以看到潛在狄利克雷分配 model 的 3 到 25 個主題編號的困惑度計算。 我想獲得其中最充分的值,這意味着我想找到肘部或膝蓋,對於那些可能只被視為簡單數字向量的值,其結果如下所示: 這就是 plot ...

如何計算文本分類中的困惑?

[英]How to compute the perplexity in text classification?

我正在使用scikit學習,朴素貝葉斯和countvectorizer進行方言文本分類。 到目前為止,我僅對3種方言文本進行分類。 我要添加一個新的方言(或者實際上是這些方言的正式語言)。 問題是,我要添加的新文本與其他3種方言共享很多單詞。 因此,我在一份研究文檔中閱讀了以下內容: ...

如何在開發數據上測試word2vec?

[英]How can I test a word2vec over development data?

在計算機任務中,要求實現word2vec算法,以使用神經網絡為某些單詞生成密集向量。 我實現了神經網絡,並通過訓練數據對其進行了訓練。 首先,如何在測試數據上對其進行測試? 該問題要求繪制一個圖表,顯示訓練期間(時期)訓練和測試數據的困惑性。 我可以為此做些損失,就像這樣: 我是 ...

使用 Mallet Perplexity 進行 Gensim 主題建模

[英]Gensim Topic Modeling with Mallet Perplexity

我正在為哈佛圖書館書名和主題建模。 我使用 Gensim Mallet Wrapper 用 Mallet 的 LDA 建模。 當我嘗試獲取 Coherence 和 Perplexity 值以查看模型有多好時,perplexity 無法計算,但有以下異常。 如果我使用 Gensim 的內置 LDA ...

在Keras / Tensorflow中計算困惑和內存問題

[英]Calculating Perplexity and Memory Issues in Keras/Tensorflow

我想在每個訓練時期后以困惑度評估我的模型。 我正在將Keras與Tensorflow后端一起使用。 問題在於,每次評估之后,都會使用越來越多的內存,但從未釋放過。 因此,經過幾個時期后,我的系統崩潰了。 如果我不使用keras和tensorflow函數,它將不會出現內存問題。 但這太慢 ...

檢查語言模型的困惑

[英]Check perplexity of a Language Model

我使用Keras LSTM創建了一個語言模型,現在我想評估它是否很好,所以我想計算困惑度。 用Python計算模型的困惑度的最佳方法是什么? ...

執行困惑度函數評估LDA模型時出錯

[英]Getting an error while executing perplexity function to evaluate the LDA model

我正在嘗試評估主題建模(LDA)。 執行困惑性函數時遇到錯誤,例如:錯誤(函數(類,fdef,mtable):無法為簽名“ LDA_Gibbs”,“數字”找到函數“困惑性”的繼承方法,請幫助解決此問題。 ...

如何使用Gibbs采樣計算LDA的困惑度

[英]How to calculate perplexity for LDA with Gibbs sampling

我在R上的LDA主題模型上處理了200多個文檔(共65k個字)的集合。 文檔已經過預處理,並存儲在文檔項矩陣dtm 。 從理論上講,我應該期望在語料庫中找到5個不同的主題,但是我想計算困惑度得分,並查看模型如何隨着主題數量的變化而變化。 下面是我使用的代碼。 問題是,當我嘗試計算困惑度分 ...

語言模型評估如何處理未知詞?

[英]How does language model evaluation work with unknown words?

因此,對於構建語言模型,將排名超出詞匯量范圍的頻率較低的單詞替換為“ UNK”。 我的問題是,如何評估基於“ UNK”評估概率的語言模型? 假設我們要在測試集上評估這種語言模型的困惑性,對於模型未知的單詞,我們基於未知單詞的“袋”評估獲得的概率。 這似乎是有問題的,因為如果我們將詞 ...

如何解釋Sklearn LDA困惑度得分。 為什么它總是隨着主題數量的增加而增加?

[英]How to interpret Sklearn LDA perplexity score. Why it always increase as number of topics increase?

我嘗試使用sklearn的LDA模型找到最佳主題數。 為此,我通過參考https://gist.github.com/tmylk/b71bf7d3ec2f203bfce2上的代碼來計算困惑度。 但是,當我增加主題數量時,困惑總是非理性地增加。 我在實現中錯了嗎?還是僅僅提供了正確的價值 ...

使用 ldamulticore 確定 log_perplexity 以獲得最佳主題數

[英]Determining log_perplexity using ldamulticore for optimum number of topics

我正在嘗試使用 python 中的日志困惑來確定我的 LDA 模型的最佳主題數。 也就是說,我正在繪制一系列主題的日志困惑度並確定最小困惑度。 但是,我獲得的圖表對 log perplexity 具有負值,當它應該具有介於 0 和 1 之間的正值時。 ...

每次下降之間的困惑度計算都會上升

[英]Perplexity calculations rise between each significantly drop

我正在使用LSTM和tensorflow的翻譯模型訓練會話代理。 我使用分批訓練,因此在每個紀元開始之后,訓練數據的混亂程度明顯下降。 可以用我批量讀取數據的方式來解釋這一下降,因為我保證訓練數據中的每個訓練對在每個時期都被完全處理一次。 當一個新紀元開始時,模型在先前紀元中所做的改進將在 ...

Tensorflow RNN PTB教程測試方法和狀態重置不是錯誤的嗎?

[英]Isn't Tensorflow RNN PTB tutorial test measure and state reset wrong?

我對Tensorflow PTB RNN教程代碼ptb_word_lm.py有兩個問題。 以下代碼塊來自代碼。 每個批次都可以重置狀態嗎? 在第133行中,我們將初始狀態設置為零。 然后,在第153行,我們將零狀態用作rnn步驟的起始狀態。 這意味着批次的每個開始狀態都設置為 ...

如何使用 KenLM 計算困惑度?

[英]How to compute perplexity using KenLM?

假設我們在此基礎上構建了一個模型: 從困惑公式( https://web.stanford.edu/class/cs124/lec/languagemodeling.pdf ) 應用逆對數公式之和得到內部變量,然后取第n個根,困惑數異常小: 用數據中未找到的句子再試一次: 並再次嘗試完 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM