簡體   English   中英

RegEx匹配段落

[英]RegEx match for paragraphs

我無法弄清楚用於解析文本文件和識別段落的正確RegEx。

我目前擁有的:

[\n\n]+  

示范文本:

Das Pensionat Klinger戰爭bereits etwas zusammengeschmolzen,als das junge Ehepaar daselbst eintrat。 Es war ein unfreundlicher,regnerischer Sommer gewesen。 Klagenüberall... aus der Schweiz - vom Salzkammergut her,woderberüchtigte»Schnürlregen«tagaustageinherabgoß - Klagen vom Ostseestrande und aus dem Engadin ... Klagen endlich auch aus dem lieblichen GebirgsnestinSüd-Bayern,in welchem man DurchschönesWhetersonstargverwöhnt戰爭。

Ein如此reizendesStückErde! 蒂夫gelegen - HOCH gelegen,魏某男人的埃本nehmen wollte,DENN死zierlichen,魏某waghalsig死貝格empor AUS DER Spielzeugschachtel genommenenHäuschenkletterten 票數 ,versteckten SICH 多特 eigenwillig溫特breitästigenObstbäumen蒂夫drunten IM塔爾。 Aber die Sonne fand sie alleundübergoßsiemit breiten Strahlenfluten hellen Goldes,und der Bergwind,wie er frischundkühlvomGebirge herunterfuhr,strichdarüberind - und ringsumher griffen die Berge wie die Glieder einer gewaltigen Kette ineinander ...einigegrün ,dicht bewaldet,die anderen kahl und schroff,hoch oben nurmitkümmerlichemFichtenwuchsbestanden,und etwelche unter ihnen stolz zu den Wolken aufragend,ewigen Schnee auf dem Haupt,und in den Falten des Obergewandes blauschimmerndes Gletschereis!

我一直得到反饋,在行的最后,我得到一個令牌,說TokenParagraph。

例如:

....並且有一個[這是它錯過的步驟]

編輯:

嘗試時(\\n|^).*?(?=\\n|$)

我明白了

為lexing-0.1.0.0預處理可執行文件'Main'.. Tokens.x:22:8:解析錯誤

%wrapper "basic"

$whiteSpace     = [\ \t \f \v \r]
$digit          = 0-9                                                                                     
$alpha          = [a-zA-Z]                          


tokens :-

  $whiteSpace+        ;
  $digit+             ;                              
  (\n|^).*\?(\?=\n|$)   { \s -> TokenParagraph  }  

我目前擁有的:

 [\\n\\n]+ 

猜測:你希望這可以連續匹配兩行的任意多個副本。 但事實上[]創建了一個字符類正則表達式,它只匹配一個字符(括號括起來的任何一個字符)。 所以這匹配任何正數的換行符,包括只有一行。

它很容易修復,但正確的修復取決於你想要的確切內容。 如果您希望任何數量的新行大於2作為段落分隔符,您可以嘗試

\n\n+

沒有括號。 或者,如果您想要多個段落分隔符,則可能有兩個以上的換行符

(\n\n)+

是你的意圖。 (不是亞歷克斯專家,我不記得括號是否需要轉義;對不起。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM