從文本中提取某些段落

Question

我是python的新手，我有一個問題。 我有幾個文本文件，並且我想提取每個文件的結論部分。
文本文件如下所示：

結果：在調整后的分析中，每小時PAC計數加倍與房顫風險的顯着增加有關（危險比，1.17 [95％CI，1.13至1.22]
局限性：這項研究並未在PAC和AF之間建立因果關系。
結論：在經過驗證的房顫風險算法中增加PAC計數可提供出色的房顫風險識別能力，並顯着改善風險重新分類。 需要進行進一步的研究以確定PAC的修飾是否可以前瞻性降低房顫風險。
主要資金來源：美國心臟協會，約瑟夫·德勞恩基金會和美國國立衛生研究院。

而且我在同一個文件夾中有多個文件，如何對該文件夾中的所有文件執行相同的操作？
先感謝您！

Answer 1

我不擅長使用正則表達式，也不確定這是否是最好的方法，但是它確實可行:)

import os
import re
path = 'path/to/your/files/'
for i in os.listdir(path):
    with open(path+i) as f:
        content = f.read()
        pattern = re.compile('CONCLUSION:\s*([\s\w.]*)\n[A-Z\s]*:')
        print pattern.findall(content)[0]

Answer 2

您應該使用正則表達式提取所需的數據：

import re
import os, os.path

PATH = 'path/to/your/files/'

conclusions = []
for file in os.listdir(path):
    with open(os.path.join(PATH, file)) as f:
        data = f.read()

    conclusion = re.search('CONCLUSION: (.*?)([A-Z]{2,})', data).group(1)
    conclusions.append(conclusion)

這將查找'CONCLUSION: '標題，然后在此之后掃描數據，在下一個標題之后停止，該標題將始終是您指定的大寫字母。

Answer 3

這將幫助您列出目錄中的所有文件。

然后對於每個文件

遍歷所有行
查看當前行是否以CONCLUSION開頭：
在該行上執行子字符串以獲取單詞CONCLUSION之后的所有內容：

從文本中提取某些段落

問題描述

3 個解決方案

解決方案1
2 已采納 2014-03-19 19:12:53

解決方案2
1 2014-03-19 19:28:23

解決方案3
0 2014-03-19 19:02:33

從文本中提取某些段落

問題描述

3 個解決方案

解決方案1 2 已采納 2014-03-19 19:12:53

解決方案2 1 2014-03-19 19:28:23

解決方案3 0 2014-03-19 19:02:33

解決方案1
2 已采納 2014-03-19 19:12:53

解決方案2
1 2014-03-19 19:28:23

解決方案3
0 2014-03-19 19:02:33