簡體   English   中英

從文本中提取特定信息

[英]Extracting specific information from text

我想從文本文件中獲取一些數據。 我已經決定使用Natural Language Toolkit來做到這一點,但是如果有更好的方法可以提出建議。

這是一個例子:

我需要從紐約到紐約的航班。

從此文本中,我想獲得起點和目的地的城市和州。

這是我到目前為止的內容:

import nltk
from nltk.text import *
from nltk.corpus import PlaintextCorpusReader

def readfiles():    
    corpus_root = 'C:\prototype\emails'
    w = PlaintextCorpusReader(corpus_root, '.*')
    t = Text(w.words())
    print "--- to ----"
    print t.concordance("to")

    print "--- from ----"
    print t.concordance("from")

我可以從某些輸入(在我的情況下為文件)中讀取文本,然后使用一致方法查找其所有用法。 我想提取“至”和“從”之后的城市,州信息。

問題是查看“ to”和“ from”實例之后的文本的最佳方式是什么?

也許最好逐行讀取文件?
然后簡單一些:

cityState = dataAfterTo.split(",")
city = cityState[0]
state = cityState[1].split()[0]

當然,除非您要處理用戶生成的內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM