簡體   English   中英

語義分析后的推文聚類

[英]Tweet clustering after semantic analysis

我想聚集一組推文。 我已經檢索了推文,清理它們,對它們應用朴素貝葉斯分類器並將它們分成兩個文件,正面和負面。 最后,我做了以下工作來搜索每條推文之間的相似性:

  with open("positive.txt", "r") as pt:
        lines = pt.readlines()
        for lineA in lines:
            vectorA = text_to_vector(lineA)
            for lineB in lines:
                vectorB = text_to_vector(lineB)
                cosine = get_cosine(vectorA, vectorB)
                print lineA, "\n", lineB, "\n", "Cosine:", cosine

現在應該測量每個句子相對於另一個句子的相似性,我在想下一步可​​能是將所有短語的值相加,因此將句子 n 與所有短語的關系的所有余弦值相加句子,在這樣做之后,繪制它們並應用諸如 KMeans 之類的東西,我不完全確定我在這里采取了正確的方法,因此非常感謝任何幫助。

如果您有一組要聚類的文檔(基於它們的內容),最簡單的選擇是使用工具Cluto 您基本上必須分兩步運行它。

第一步是執行程序doc2mat ,它接受一個應該包含所有文檔的輸入文件,每行一個文檔。 doc2mat 程序將寫出一個矩陣文件,由每個文檔的 tf-idf 向量表示組成。

然后,您需要將此矩陣文件輸入到程序vcluster 中,該程序將生成聚類結果。 如果您將參考類文件輸入到 vcluster,您還可以評估聚類結果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM