如何修复 OCR 目录中中间带有数字的断线？

Question

ORC 目录中有一些断行，在\\t和\\n之前可能有也可能没有数字。

输入：

    9.1 The Euclidean Group in Two-Dimensional  152
    Space E2
CHAPTER 10: THE LORENTZ AND POINCARÉ GROUPS,    
    AND SPACE-TIME SYMMETRIES   173

如果一个数字夹在两个字母之间（示例中为152 ），则它是上一节的页码，应删除。 如果在它之后是另一个数字（下一部分的数字），那么它就是正确的页码（此处为173 ）并且应该保留。 这是所需的输出：

    9.1 The Euclidean Group in Two-Dimensional Space E2
CHAPTER 10: THE LORENTZ AND POINCARÉ GROUPS, AND SPACE-TIME SYMMETRIES  173

我的尝试：

([a-zA-Z])(\t[0-9]*\n\t)((?![P])[A-Z])

但是 npp 一直说它找不到文本，即使它在https://www.regextester.com 中工作正常。 如何修复它们正常？

Answer 1

您可以使用

(\S)\t[0-9]*\R\t+

并替换为$1 （第 1 组值占位符）。

细节