簡體 English 中英

語義分析后的推文聚類

[英]Tweet clustering after semantic analysis

原文 2017-01-25 23:17:21 7 1 python/ nlp/ cluster-analysis/ k-means/ tweets

我想聚集一組推文。 我已經檢索了推文，清理它們，對它們應用朴素貝葉斯分類器並將它們分成兩個文件，正面和負面。 最后，我做了以下工作來搜索每條推文之間的相似性：

  with open("positive.txt", "r") as pt:
        lines = pt.readlines()
        for lineA in lines:
            vectorA = text_to_vector(lineA)
            for lineB in lines:
                vectorB = text_to_vector(lineB)
                cosine = get_cosine(vectorA, vectorB)
                print lineA, "\n", lineB, "\n", "Cosine:", cosine

現在應該測量每個句子相對於另一個句子的相似性，我在想下一步可能是將所有短語的值相加，因此將句子 n 與所有短語的關系的所有余弦值相加句子，在這樣做之后，繪制它們並應用諸如 KMeans 之類的東西，我不完全確定我在這里采取了正確的方法，因此非常感謝任何幫助。

1 個解決方案

如果您有一組要聚類的文檔（基於它們的內容），最簡單的選擇是使用工具Cluto 。 您基本上必須分兩步運行它。

第一步是執行程序doc2mat ，它接受一個應該包含所有文檔的輸入文件，每行一個文檔。 doc2mat 程序將寫出一個矩陣文件，由每個文檔的 tf-idf 向量表示組成。

然后，您需要將此矩陣文件輸入到程序vcluster 中，該程序將生成聚類結果。 如果您將參考類文件輸入到 vcluster，您還可以評估聚類結果。

[英]Semantic Clustering

潛在語義分析結果

[英]Latent Semantic Analysis results

KMeans聚類的輪廓分析

[英]Silhouette analysis on KMeans clustering

潛在語義分析（LSA）教程

[英]Latent Semantic Analysis (LSA) Tutorial

使用潛在語義分析和sklearn

[英]Use Latent Semantic Analysis with sklearn

Python差異的潛在語義分析

[英]Latent Semantic Analysis in Python discrepancy

使用潛在語義分析進行聚類

[英]Clustering Using Latent Symantic Analysis

通過潛在語義分析建立索引的問題

[英]Problems with Indexing by Latent Semantic Analysis

分裂分析 (DIANA) 層次聚類

[英]DIvisive ANAlysis (DIANA) Hierarchical Clustering

分類：推文情緒分析 - 步驟順序

[英]Classification: Tweet Sentiment Analysis - Order of steps

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 語義聚類潛在語義分析結果 KMeans聚類的輪廓分析潛在語義分析（LSA）教程使用潛在語義分析和sklearn Python差異的潛在語義分析使用潛在語義分析進行聚類通過潛在語義分析建立索引的問題分裂分析 (DIANA) 層次聚類分類：推文情緒分析 - 步驟順序

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM