繁体   English   中英

如何修复 OCR 目录中中间带有数字的断线?

[英]How to fix broken lines with numbers in middle in OCR table of contents?

ORC 目录中有一些断行,在\\t\\n之前可能有也可能没有数字。

输入:

    9.1 The Euclidean Group in Two-Dimensional  152
    Space E2
CHAPTER 10: THE LORENTZ AND POINCARÉ GROUPS,    
    AND SPACE-TIME SYMMETRIES   173

如果一个数字夹在两个字母之间(示例中为152 ),则它是上一节的页码,应删除。 如果在它之后是另一个数字(下一部分的数字),那么它就是正确的页码(此处为173 )并且应该保留。 这是所需的输出:

    9.1 The Euclidean Group in Two-Dimensional Space E2
CHAPTER 10: THE LORENTZ AND POINCARÉ GROUPS, AND SPACE-TIME SYMMETRIES  173

我的尝试:

([a-zA-Z])(\t[0-9]*\n\t)((?![P])[A-Z])

但是 npp 一直说它找不到文本,即使它在https://www.regextester.com 中工作正常。 如何修复它们正常?

您可以使用

(\S)\t[0-9]*\R\t+

并替换为$1 (第 1 组值占位符)。

细节

  • (\\S) - 第 1 组:任何非空白字符
  • \\t - 一个标签
  • [0-9]* - 0+ 位数
  • \\R - 换行符序列
  • \\t+ - 1 个或多个制表符(或\\h+ - 1+ 个水平空格)

正则表达式演示

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM