[英]Python treat multiple words as single
在Python中是否有將多個單詞視為單個單詞的方法? 我編寫了一個腳本來查找文檔集合中單詞的Tf-Idf值。 問題在於,它為單個單詞提供了Tf-Idf。 但是在某些情況下,我必須將多個單詞視為一個單詞,例如像Big Data這樣的單詞,應將機器學習視為一個單詞,並應計算這些單詞的Tf-Idf分數。 任何幫助將非常有用。
我將使用scikit-learn和TfidfVectorizer處理它。 調整其中的一些參數基本上可以讓您完成所有工作。
盡管沒有一個很好的例子,但很難證明它的功能。
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = "lots of text"
vectorizer = TfidfVectorizer(ngram_range=(2,2))
result = vectorizer.fit_transform(corpus)
知道ngram_range
參數允許您通過選擇范圍來選擇是否對雙ngram_range
,三ngram_range
組等感興趣。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.