簡體   English   中英

Pybrain文本分類:數據和輸入

[英]Pybrain Text Classification: data and input

我有3套句子(字數不同),但是我不知道如何從文本中提取特征,以便輸入維數保持不變。

例如,我嘗試過單詞袋,但是由於字數變化導致輸入維數變化,所以我最終會出錯。

如果您能向我展示一種為神經網絡准備字符串數據的方法,我將不勝感激。

謝謝!

(Windows 7中為Python 2.7)

如何格式化輸入

這是從Wikipedia.org摘錄的


這是兩個簡單的文本文檔:

約翰喜歡看電影。 瑪麗也喜歡。


約翰還喜歡看足球比賽。


基於這兩個文本文檔,字典的結構如下:

{
    "John": 1,
    "likes": 2,
    "to": 3,
    "watch": 4,
    "movies": 5,
    "also": 6,
    "football": 7,
    "games": 8,
    "Mary": 9,
    "too": 10
}

其中有10個不同的詞。 並使用字典的索引,每個文檔由一個10項向量表示:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]


無論文檔的長度如何,您的輸入將保持不變。 我希望這能幫到您。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM