簡體   English   中英

從python中的文本中提取信息

[英]Extracting information from text in python

我是文本挖掘的新手。 我有一個CSV文件。 我需要遍歷每一行並提取一些信息,然后將它們寫入另一個CSV文件。 我正在尋找字典中的特定信息。 考慮下面的句子:

“應用程序版本為1.8.2,變量skt.len傳遞了所需的信息。文件ReadMe.txt具有規范。”

我的字典是:[“應用程序版本”,“變量”,“文件”]

我需要提取:

  • 應用版本:1.8.2
  • 變量:skt.len
  • 檔案:ReadMe.txt

從文本中提取此類信息的最佳方法是什么? 我正在使用NLTK和StanfordCoreNLP功能。 但是,我還不能提取信息。 我正在考慮使用正則表達式提取應用程序版本。 任何想法?

PS:我知道這可能會使任務更加復雜。 但是,CSV文件每一行中的句子可能具有不同的結構。 例如:一行中的“應用程序版本”,可能在另一行中是“應用程序版本”。 或者一行中的“文件”可以是另一行中的“文件名”。

我使用R,下面是提取變量值的一種方法(不是最好的方法,只是為了展示它是如何工作的):

>> str_extract(text, '(?<=variable\\s)(\\w+)(.)?(\\w+)?')

這里的text是您共享的整個字符串。 這給了我一個輸出

>> skt.len

我確信Python中有類似的函數可以完成此操作並以所需的格式獲取輸出。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM