簡體   English   中英

有沒有辦法將nltk功能集轉換為scipy.sparse數組?

[英]Is there a way to convert nltk featuresets into a scipy.sparse array?

我正在嘗試使用scikit.learn,它需要numpy / scipy數組作為輸入。 在nltk中生成的特征集由單音和雙字頻率組成。 我可以手動完成,但是會很費力。 因此,想知道是否有我忽略的解決方案。

雅各布·珀金斯(Jacob Perkins)為使用scikit-learn分類器訓練NLTK分類器搭建了一座橋梁,這正是源於此:

https://github.com/japerk/nltk-trainer/blob/master/nltk_trainer/classification/sci.py

如果您使用的是0.9+版本,則應更新軟件包導入行。

並不是我所知道的,但是請注意scikit-learn本身可以進行n克頻率計數。 假設單詞級n -grams:

from sklearn.feature_extraction.text import CountVectorizer, WordNGramAnalyzer
v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=2))
X = v.fit_transform(files)

其中files是字符串或類似文件的對象的列表。 在此之后, X是原始頻率計數的稀疏矩陣。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM