標簽[latent-semantic-indexing]

[英]Cosine similarity between the same dictionary's values

我有這個叫做queries的字典：{'q1': ['similar', 'law', 'must', 'obey', 'construct', 'aeroelast', 'model', 'heat', 'high', 'speed', 'aircraft'] ...

為什么每次運行我的主題權重的跡象都在變化？

[英]Why are the signs of my topic weights changing from run to run?

我正在運行 Gensim 的主題和轉換教程中的 LSI 程序，出於某種原因，主題權重的符號不斷從正變為負，反之亦然。例如，這就是我使用該行打印時得到的結果我在 PC 上運行 Python 3.5.2，在 IntelliJ 中編碼。任何人都遇到過這個問題，使用 Gensim 庫或其他地方？ ...

Sklearn TruncatedSVD 不返回 n，組件

[英]Sklearn TruncatedSVD is not return n, components

我在 TfIdf 矩陣上擬合 LSA 模型。我的原始矩陣有 (20, 22096) 然后我應用 TruncatedSVD 來執行 LSI/Reduction svd = TruncatedSVD(n_components=200, random_state=42, n_iter=10) svdPr ...

gensim的LSA模型使用哪個tf-idf公式？

[英]Which formula of tf-idf does the LSA model of gensim use?

有許多不同的方法可以計算tf和idf。我想知道gensim在其LSA模型中使用了哪個公式。我一直在瀏覽其源代碼lsimodel.py ，但是對我而言，創建文檔項矩陣的位置並不明顯（可能是由於內存優化lsimodel.py ）。在一篇LSA論文中，我讀到文檔項矩陣的每個單元都是該 ...

主題建模：LDA，每個主題和Wordcloud中的詞頻

[英]Topic Modelling: LDA , word frequency in each topic and Wordcloud

問題：如何計算和編碼每個主題中的單詞出現頻率？我的目標是從每個主題創建“詞雲”。 PS>我對wordcloud沒問題。從代碼中謝謝（我試圖使問題盡可能簡潔，因此，如果您需要更多詳細信息，我可以添加更多內容。） ...

運行gensim分布式LSI時AttributeError模塊'Pyro4'沒有屬性'expose'

[英]AttributeError module 'Pyro4' has no attribute 'expose' while running gensim distributed LSI

因此，我嘗試從gensim運行針對分布式LSI的演示（您可以在此處找到），但是每當我運行代碼時，我都會收到錯誤消息 AttributeError: module 'Pyro4' has no attribute 'expose' 我在這里檢查了關於stackoverflow的類似問題 ...

如何將潛在語義分析中的特征作為獨立變量合並到預測模型中

[英]How to incorporate features from a latent semantic analysis as independent variables in a predictive model

我正在嘗試使用R中的文本數據運行邏輯回歸。我已經建立了術語文檔矩陣和相應的潛在語義空間。在我的理解中，LSA用於從“術語”中推導出“概念”，這可能有助於減小尺寸。這是我的代碼：這提供了V1，V2，V3 ... V21等功能。在我的邏輯回歸中是否可以將它們用作自變量？如果 ...

gensim的潛在語義索引

[英]Latent Semantic Indexation with gensim

為了使用gensim中的潛在語義索引方法，我想從一個小“ classique”示例開始：我的問題是：如何獲取語料庫迭代器“ wiki_en_tfidf.mm”？我必須從某個地方下載嗎？我已經在Internet上搜索了，但是沒有找到任何東西。請幫助？ ...

試圖弄清潛在語義索引（LSI）

[英]Trying to make sense of Latent Semantic Indexing(LSI)

我正在學習奇異值分解，並且出於什么目的可以使用此概念，而我正在閱讀的書中提到在潛在語義索引中使用了SVD。我讀了幾篇有關LSI的文章，看來LSI主要用於搜索引擎和類似的應用程序。我想將LSI用於我正在從事的小型數據分析項目，但不確定是否對我的應用程序有意義。這是我正在使用的。 ...

gensim生成LSI模型導致“ Python停止工作”

[英]gensim Generating LSI model causes “Python has stopped working”

因此，在本教程之后，我嘗試使用gensim與corpus_lsi一起生成LSI模型。我從生成自己的語料庫和字典開始。文檔列表太小（9行= 9個文檔），這是gensim教程中提供的示例列表但是，當pythos到達生成LSI_model的行時，它就會崩潰。您可以在下面的代碼以 ...

scikit-learn - 我應該使用TF或TF-IDF模型嗎？

[英]scikit-learn - Should I fit model with TF or TF-IDF?

我試圖在sklearn（Python）上找到適合不同概率模型（如Latent Dirichlet Allocation，Non-negative Matrix Factorization等）的最佳方法。看一下sklearn文檔中的示例，我想知道為什么LDA模型適合TF陣列，而NMF模型適 ...

選擇合適的聚類方法進行潛在語義分析

[英]choose the proper clustering method for Latent Semantic Analysis

我想聚集一些文本文檔以找到具有相同概念的文檔。我已經使用潛在語義分析（LSA）進行了語義相似性處理，但是我混淆了應該為我的目的選擇哪種聚類方法。謝謝 ...

將LSA / LSI與Naive Bayes相結合用於文檔分類

[英]combining LSA/LSI with Naive Bayes for document classification

我是gensim包和矢量空間模型的新手，我不確定我應該對我的LSA輸出做些什么。為了簡要概述我的目標，我想使用主題建模來增強朴素貝葉斯分類器，以改進評論的分類（正面或負面）。這是一篇很棒的論文，我一直在閱讀，它塑造了我的想法，但讓我對實施仍感到有些困惑。我已經為Naive ...

LSA相似性接口

[英]LSA Similarity interface

我是翻譯研究的博士學位學生，目前正在研究我的論文。本文將LSA相似性接口作為一種分析方法。我的背景是語言學而不是計算機科學。我試圖找到一種簡單的LSA文檔分類工具，但找不到任何工具。我嘗試與Gensim一起玩，但我沒有工作。我認為我的問題是將我的語料庫（txt文件）與Gens ...

潛在語義索引主題的數量

[英]Number of Latent Semantic Indexing topics

我正在使用gensim的軟件包在語料庫上實現LSI。我的目標是找出出現在語料庫中的最常出現的不同主題。如果我不知道語料庫中的主題數量（我估計在5到20之間），那么設置LSI應該搜索的主題數量的最佳方法是什么？尋找大量主題（20-30）或少數主題（~5）更好嗎？ ...

LSA - 特征選擇

[英]LSA - Feature selection

我有這個文件的SVD分解我已閱讀此頁面，但我不明白如何計算文檔分離的最佳功能。我知道： S x Vt給出了文檔和功能之間的關系 U x S給出了術語和特征之間的關系但最佳功能選擇的關鍵是什么？ ...

mahout中的SVD輸出解釋

[英]SVD output interpretation in mahout

我正在嘗試在mahout中運行SVD作業。我有一個尺寸為372053 x 21338的矩陣（例如A）（文檔x術語）（其中21338個不重復的單詞說N，372053個文檔說M）。因此我的矩陣A的大小為（M * N）。我使用mahout運行了svd，並得到了經過清理的特征向量（我給出的期 ...

潛在語義分析（LSA）單值分解（SVD）理解

[英]Latent semantic analysis (LSA) single value decomposition (SVD) understanding

通過對LSI（機械工程背景）的適度了解與我聯系：在LSI中執行SVD之后，您將獲得3個矩陣： U，S和V轉置。 U將單詞與主題進行比較，S是每種功能強度的一種度量。 Vt將主題與文檔進行比較。返回SVD之前的原始矩陣。如果不做太多（沒有）深度代數，似乎： ...

基於主題的推薦系統的用戶配置文件

[英]User profiling for topic-based recommender system

我正在嘗試提出一個基於主題的推薦系統，向用戶建議相關的文本文檔。我使用gensim在Wikipedia語料庫上訓練了一個潛在的語義索引模型。這使我可以輕松地將文檔轉換為LSI主題分布。我現在的想法是用相同的方式代表用戶。但是，當然，用戶具有瀏覽過文章的歷史以及文章評級。 ...

什么NLP工具用於匹配具有相似含義或語義的短語

[英]What NLP tools to use to match phrases having similar meaning or semantics

我正在開展一個項目，要求我將短語或關鍵字與一組相似的關鍵字相匹配。我需要對它進行語義分析。一個例子：相關QT 廉價的健康保險實惠的健康保險低成本醫療保險健康計划少廉價的健康保險常識低成本的健康保險 Common Common列 ...