從文本中提取特定信息

Question

我想從文本文件中獲取一些數據。 我已經決定使用Natural Language Toolkit來做到這一點，但是如果有更好的方法可以提出建議。

這是一個例子：

我需要從紐約到紐約的航班。

從此文本中，我想獲得起點和目的地的城市和州。

這是我到目前為止的內容：

import nltk
from nltk.text import *
from nltk.corpus import PlaintextCorpusReader

def readfiles():    
    corpus_root = 'C:\prototype\emails'
    w = PlaintextCorpusReader(corpus_root, '.*')
    t = Text(w.words())
    print "--- to ----"
    print t.concordance("to")

    print "--- from ----"
    print t.concordance("from")

我可以從某些輸入（在我的情況下為文件）中讀取文本，然后使用一致方法查找其所有用法。 我想提取“至”和“從”之后的城市，州信息。

問題是查看“ to”和“ from”實例之后的文本的最佳方式是什么？

Answer 1

也許最好逐行讀取文件？
然后簡單一些：

cityState = dataAfterTo.split(",")
city = cityState[0]
state = cityState[1].split()[0]

當然，除非您要處理用戶生成的內容。

從文本中提取特定信息

問題描述

1 個解決方案

解決方案1
1 2011-12-28 16:39:14

從文本中提取特定信息

問題描述

1 個解決方案

解決方案1 1 2011-12-28 16:39:14

解決方案1
1 2011-12-28 16:39:14