[英]Cosine similarity between the same dictionary's values
我有這個叫做queries的字典:{'q1': ['similar', 'law', 'must', 'obey', 'construct', 'aeroelast', 'model', 'heat', 'high', 'speed', 'aircraft'] ...
[英]Cosine similarity between the same dictionary's values
我有這個叫做queries的字典:{'q1': ['similar', 'law', 'must', 'obey', 'construct', 'aeroelast', 'model', 'heat', 'high', 'speed', 'aircraft'] ...
[英]Why are the signs of my topic weights changing from run to run?
我正在運行 Gensim 的主題和轉換教程中的 LSI 程序,出於某種原因,主題權重的符號不斷從正變為負,反之亦然。 例如,這就是我使用該行打印時得到的結果 我在 PC 上運行 Python 3.5.2,在 IntelliJ 中編碼。 任何人都遇到過這個問題,使用 Gensim 庫或其他地方? ...
[英]Sklearn TruncatedSVD is not return n, components
我在 TfIdf 矩陣上擬合 LSA 模型。 我的原始矩陣有 (20, 22096) 然后我應用 TruncatedSVD 來執行 LSI/Reduction svd = TruncatedSVD(n_components=200, random_state=42, n_iter=10) svdPr ...
[英]Which formula of tf-idf does the LSA model of gensim use?
有許多不同的方法可以計算tf和idf。 我想知道gensim在其LSA模型中使用了哪個公式。 我一直在瀏覽其源代碼lsimodel.py ,但是對我而言,創建文檔項矩陣的位置並不明顯(可能是由於內存優化lsimodel.py )。 在一篇LSA論文中 ,我讀到文檔項矩陣的每個單元都是該 ...
[英]Topic Modelling: LDA , word frequency in each topic and Wordcloud
問題:如何計算和編碼每個主題中的單詞出現頻率? 我的目標是從每個主題創建“詞雲”。 PS>我對wordcloud沒問題。 從代碼中 謝謝(我試圖使問題盡可能簡潔,因此,如果您需要更多詳細信息,我可以添加更多內容。) ...
[英]AttributeError module 'Pyro4' has no attribute 'expose' while running gensim distributed LSI
因此,我嘗試從gensim運行針對分布式LSI的演示(您可以在此處找到),但是每當我運行代碼時,我都會收到錯誤消息 AttributeError: module 'Pyro4' has no attribute 'expose' 我在這里檢查了關於stackoverflow的類似問題 ...
[英]How to incorporate features from a latent semantic analysis as independent variables in a predictive model
我正在嘗試使用R中的文本數據運行邏輯回歸。我已經建立了術語文檔矩陣和相應的潛在語義空間。 在我的理解中,LSA用於從“術語”中推導出“概念”,這可能有助於減小尺寸。 這是我的代碼: 這提供了V1,V2,V3 ... V21等功能。 在我的邏輯回歸中是否可以將它們用作自變量? 如果 ...
[英]Latent Semantic Indexation with gensim
為了使用gensim中的潛在語義索引方法,我想從一個小“ classique”示例開始: 我的問題是:如何獲取語料庫迭代器“ wiki_en_tfidf.mm”? 我必須從某個地方下載嗎? 我已經在Internet上搜索了,但是沒有找到任何東西。 請幫助 ? ...
[英]Trying to make sense of Latent Semantic Indexing(LSI)
我正在學習奇異值分解,並且出於什么目的可以使用此概念,而我正在閱讀的書中提到在潛在語義索引中使用了SVD。 我讀了幾篇有關LSI的文章,看來LSI主要用於搜索引擎和類似的應用程序。 我想將LSI用於我正在從事的小型數據分析項目,但不確定是否對我的應用程序有意義。 這是我正在使用的。 ...
[英]gensim Generating LSI model causes “Python has stopped working”
因此,在本教程之后,我嘗試使用gensim與corpus_lsi一起生成LSI模型。 我從生成自己的語料庫和字典開始。 文檔列表太小(9行= 9個文檔),這是gensim教程中提供的示例列表 但是,當pythos到達生成LSI_model的行時,它就會崩潰。 您可以在下面的代碼以 ...
[英]scikit-learn - Should I fit model with TF or TF-IDF?
我試圖在sklearn(Python)上找到適合不同概率模型(如Latent Dirichlet Allocation,Non-negative Matrix Factorization等)的最佳方法。 看一下sklearn文檔中的示例,我想知道為什么LDA模型適合TF陣列,而NMF模型適 ...
[英]choose the proper clustering method for Latent Semantic Analysis
我想聚集一些文本文檔以找到具有相同概念的文檔。 我已經使用潛在語義分析(LSA)進行了語義相似性處理,但是我混淆了應該為我的目的選擇哪種聚類方法。 謝謝 ...
[英]combining LSA/LSI with Naive Bayes for document classification
我是gensim包和矢量空間模型的新手 ,我不確定我應該對我的LSA輸出做些什么。 為了簡要概述我的目標,我想使用主題建模來增強朴素貝葉斯分類器,以改進評論的分類(正面或負面)。 這是一篇很棒的論文,我一直在閱讀,它塑造了我的想法,但讓我對實施仍感到有些困惑。 我已經為Naive ...
[英]LSA Similarity interface
我是翻譯研究的博士學位學生,目前正在研究我的論文。 本文將LSA相似性接口作為一種分析方法。 我的背景是語言學而不是計算機科學。 我試圖找到一種簡單的LSA文檔分類工具,但找不到任何工具。 我嘗試與Gensim一起玩,但我沒有工作。 我認為我的問題是將我的語料庫(txt文件)與Gens ...
[英]Number of Latent Semantic Indexing topics
我正在使用gensim的軟件包在語料庫上實現LSI。 我的目標是找出出現在語料庫中的最常出現的不同主題。 如果我不知道語料庫中的主題數量(我估計在5到20之間),那么設置LSI應該搜索的主題數量的最佳方法是什么? 尋找大量主題(20-30)或少數主題(~5)更好嗎? ...
[英]LSA - Feature selection
我有這個文件的SVD分解 我已閱讀此頁面 ,但我不明白如何計算文檔分離的最佳功能。 我知道: S x Vt給出了文檔和功能之間的關系 U x S給出了術語和特征之間的關系 但最佳功能選擇的關鍵是什么? ...
[英]SVD output interpretation in mahout
我正在嘗試在mahout中運行SVD作業。 我有一個尺寸為372053 x 21338的矩陣(例如A)(文檔x術語)(其中21338個不重復的單詞說N,372053個文檔說M)。 因此我的矩陣A的大小為(M * N)。 我使用mahout運行了svd,並得到了經過清理的特征向量(我給出的期 ...
[英]Latent semantic analysis (LSA) single value decomposition (SVD) understanding
通過對LSI(機械工程背景)的適度了解與我聯系: 在LSI中執行SVD之后,您將獲得3個矩陣: U,S和V轉置。 U將單詞與主題進行比較,S是每種功能強度的一種度量。 Vt將主題與文檔進行比較。 返回SVD之前的原始矩陣。 如果不做太多(沒有)深度代數,似乎: ...
[英]User profiling for topic-based recommender system
我正在嘗試提出一個基於主題的推薦系統,向用戶建議相關的文本文檔。 我使用gensim在Wikipedia語料庫上訓練了一個潛在的語義索引模型。 這使我可以輕松地將文檔轉換為LSI主題分布。 我現在的想法是用相同的方式代表用戶。 但是,當然,用戶具有瀏覽過文章的歷史以及文章評級。 ...
[英]What NLP tools to use to match phrases having similar meaning or semantics
我正在開展一個項目,要求我將短語或關鍵字與一組相似的關鍵字相匹配。 我需要對它進行語義分析。 一個例子: 相關QT 廉價的健康保險 實惠的健康保險 低成本醫療保險 健康計划少 廉價的健康保險 常識 低成本的健康保險 Common Common列 ...