[英]Pybrain Text Classification: data and input
我有3套句子(字數不同),但是我不知道如何從文本中提取特征,以便輸入維數保持不變。
例如,我嘗試過單詞袋,但是由於字數變化導致輸入維數變化,所以我最終會出錯。
如果您能向我展示一種為神經網絡准備字符串數據的方法,我將不勝感激。
謝謝!
(Windows 7中為Python 2.7)
這是從Wikipedia.org摘錄的
約翰喜歡看電影。 瑪麗也喜歡。
約翰還喜歡看足球比賽。
{
"John": 1,
"likes": 2,
"to": 3,
"watch": 4,
"movies": 5,
"also": 6,
"football": 7,
"games": 8,
"Mary": 9,
"too": 10
}
其中有10個不同的詞。 並使用字典的索引,每個文檔由一個10項向量表示:
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
無論文檔的長度如何,您的輸入將保持不變。 我希望這能幫到您。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.