[英]Extracting specific information from text
我想從文本文件中獲取一些數據。 我已經決定使用Natural Language Toolkit來做到這一點,但是如果有更好的方法可以提出建議。
這是一個例子:
我需要從紐約到紐約的航班。
從此文本中,我想獲得起點和目的地的城市和州。
這是我到目前為止的內容:
import nltk
from nltk.text import *
from nltk.corpus import PlaintextCorpusReader
def readfiles():
corpus_root = 'C:\prototype\emails'
w = PlaintextCorpusReader(corpus_root, '.*')
t = Text(w.words())
print "--- to ----"
print t.concordance("to")
print "--- from ----"
print t.concordance("from")
我可以從某些輸入(在我的情況下為文件)中讀取文本,然后使用一致方法查找其所有用法。 我想提取“至”和“從”之后的城市,州信息。
問題是查看“ to”和“ from”實例之后的文本的最佳方式是什么?
也許最好逐行讀取文件?
然后簡單一些:
cityState = dataAfterTo.split(",")
city = cityState[0]
state = cityState[1].split()[0]
當然,除非您要處理用戶生成的內容。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.