Pybrain文本分類：數據和輸入

Question

我有3套句子（字數不同），但是我不知道如何從文本中提取特征，以便輸入維數保持不變。

例如，我嘗試過單詞袋，但是由於字數變化導致輸入維數變化，所以我最終會出錯。

如果您能向我展示一種為神經網絡准備字符串數據的方法，我將不勝感激。

謝謝！

（Windows 7中為Python 2.7）

Answer 1

如何格式化輸入

這是從Wikipedia.org摘錄的

這是兩個簡單的文本文檔：

約翰喜歡看電影。 瑪麗也喜歡。

約翰還喜歡看足球比賽。

基於這兩個文本文檔，字典的結構如下：

{
    "John": 1,
    "likes": 2,
    "to": 3,
    "watch": 4,
    "movies": 5,
    "also": 6,
    "football": 7,
    "games": 8,
    "Mary": 9,
    "too": 10
}

其中有10個不同的詞。 並使用字典的索引，每個文檔由一個10項向量表示：

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

無論文檔的長度如何，您的輸入將保持不變。 我希望這能幫到您。

Pybrain文本分類：數據和輸入

問題描述

1 個解決方案

解決方案1
2 已采納 2013-08-06 08:42:29

如何格式化輸入

這是兩個簡單的文本文檔：

基於這兩個文本文檔，字典的結構如下：

Pybrain文本分類：數據和輸入

問題描述

1 個解決方案

解決方案1 2 已采納 2013-08-06 08:42:29

如何格式化輸入

這是兩個簡單的文本文檔：

基於這兩個文本文檔，字典的結構如下：

解決方案1
2 已采納 2013-08-06 08:42:29