簡體   English   中英

從文本中提取某些段落

[英]extract certain paragraph from text

我是python的新手,我有一個問題。 我有幾個文本文件,並且我想提取每個文件的結論部分。
文本文件如下所示:


結果:在調整后的分析中,每小時PAC計數加倍與房顫風險的顯着增加有關(危險比,1.17 [95%CI,1.13至1.22]
局限性:這項研究並未在PAC和AF之間建立因果關系。
結論:在經過驗證的房顫風險算法中增加PAC計數可提供出色的房顫風險識別能力,並顯着改善風險重新分類。 需要進行進一步的研究以確定PAC的修飾是否可以前瞻性降低房顫風險。
主要資金來源:美國心臟協會,約瑟夫·德勞恩基金會和美國國立衛生研究院。


而且我在同一個文件夾中有多個文件,如何對該文件夾中的所有文件執行相同的操作?
先感謝您!

我不擅長使用正則表達式,也不確定這是否是最好的方法,但是它確實可行:)

import os
import re
path = 'path/to/your/files/'
for i in os.listdir(path):
    with open(path+i) as f:
        content = f.read()
        pattern = re.compile('CONCLUSION:\s*([\s\w.]*)\n[A-Z\s]*:')
        print pattern.findall(content)[0]

您應該使用正則表達式提取所需的數據:

import re
import os, os.path

PATH = 'path/to/your/files/'

conclusions = []
for file in os.listdir(path):
    with open(os.path.join(PATH, file)) as f:
        data = f.read()

    conclusion = re.search('CONCLUSION: (.*?)([A-Z]{2,})', data).group(1)
    conclusions.append(conclusion)

這將查找'CONCLUSION: '標題,然后在此之后掃描數據,在下一個標題之后停止,該標題將始終是您指定的大寫字母。

將幫助您列出目錄中的所有文件。

然后對於每個文件

  1. 遍歷所有行
  2. 查看當前行是否以CONCLUSION開頭:
  3. 在該行上執行子字符串以獲取單詞CONCLUSION之后的所有內容:

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM