簡體   English   中英

Python將多個單詞視為一個單詞

[英]Python treat multiple words as single

在Python中是否有將多個單詞視為單個單詞的方法? 我編寫了一個腳本來查找文檔集合中單詞的Tf-Idf值。 問題在於,它為單個單詞提供了Tf-Idf。 但是在某些情況下,我必須將多個單詞視為一個單詞,例如像Big Data這樣的單詞,應將機器學習視為一個單詞,並應計算這些單詞的Tf-Idf分數。 任何幫助將非常有用。

我將使用scikit-learn和TfidfVectorizer處理它。 調整其中的一些參數基本上可以讓您完成所有工作。

盡管沒有一個很好的例子,但很難證明它的功能。

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = "lots of text"    
vectorizer = TfidfVectorizer(ngram_range=(2,2))
result = vectorizer.fit_transform(corpus)

知道ngram_range參數允許您通過選擇范圍來選擇是否對雙ngram_range ,三ngram_range組等感興趣。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM