简体   繁体   English

查找文章文字Regex Python

[英]find article text Regex Python

I have wrote a simple python script to parse text file. 我写了一个简单的python脚本来解析文本文件。 But my regex need modification to find more than one line in second group. 但是我的正则表达式需要修改才能在第二组中找到多个行。

import re


if __name__ == '__main__':
    sonnik = open('sonnik.txt').read().decode('utf-8')
    article = re.compile(ur'^([A-Za-zА-Яа-я0-9_\-:,\.«» ]+)[\n]{2}^[ ]{5}([A-Za-zА-Яа-я0-9_\-:,\.«» ]+)$',re.M|re.U)
    result = article.findall(sonnik)
    print len(result)

    print '-----'
    print result[0][1].decode('utf-8')
    print '-----'

Example of source text file: 源文本文件示例:

Банкет

     Видеть во сне банкет - хорошо. Друзья будут к Вам благосклонны. Видеть во сне себя в толпе веселых, нарядно одетых гостей, которые едят на дорогой посуде и пьют старые вина баснословной стоимости, предвещает огромную удачу в любых начинаниях и счастье в кругу друзей.
     Видеть недружелюбие среди гостей, нелепые пустые столы - является знаком очень тяжелых недоразумений, размолвок и разочарований, ожидающих Вас.

Банкрот

     Если Вам снится сон, в котором Вы не можете расплатиться с долгами и чувствуете себя банкротом - то в реальной жизни не бойтесь угрозы с этой стороны. Напротив, Ваша энергия и уверенность в себе позволяет Вам наилучшим образом организовать свои дела.
     Однако иные тревоги могут смутить Вашу душу.
     Если Вы видите банкротами других, то это означает, что наяву Вам встретятся люди благородные, честные в делах, хотя, возможно, излишней откровенностью они могут Вам навредить.
     Молодой особе этот сон обещает небольшую размолвку с любимым, виной чему разность их взглядов.

Term and article pair. 术语和文章对。 Article text placed between new lines after term with 5 whitespace indent. 条款文本在条款后以5个空格缩进的方式置于新行之间。 Current regex match only first line from text. 当前的正则表达式仅匹配文本的第一行。 Is it possible change regex to use something like loop for group? 是否可以更改正则表达式为组使用类似loop的东西?

Maybe you could add: 也许您可以添加:

(?:\n^[ ]{5}[A-Za-zА-Яа-я0-9_\-:,\.«» ]+)*

After the second capture group, as in: 在第二个捕获组之后,如下所示:

^([A-Za-zА-Яа-я0-9_\-:,\.«» ]+)\n{2}^[ ]{5}([A-Za-zА-Яа-я0-9_\-:,\.«» ]+(?:\n^[ ]{5}[A-Za-zА-Яа-я0-9_\-:,\.«» ]+)*)$

regex101 demo regex101演示

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM