查找并替换为记事本++

Question

我有一个从PDF转换为HTML的文档，可在公司网站上使用，以供参考和索引以进行搜索。 我正在尝试格式化转换后的文档以满足我的需要，在此过程中，我试图清理从PDF时提取的一些垃圾，例如页码，页眉和页脚。 幸运的是，所有这些需要删除的行都是4行的块，不幸的是它们并不完全相同，因此无法通过简单的文字替换将其删除。 这些行包含与页面相关的递增数字。 如何从HTML文件中删除以下示例。

Title<br>
10<br>
<hr>
<A name=11></a>Footer<br>

我已经尝试过许多不同的正则表达式尝试，但是由于我在该领域的技能有限，所以找不到合适的语法。 我确定我缺少一些相当容易的东西，因为看来我所需要的只是用通配符替换代码中的两个数字，其余的都是文字。

任何帮助表示赞赏

Answer 1

npp的搜索和替换非常奇怪。 我找不到带有正则表达式的换行符，尽管文档说：

从v4.9开始，简单查找/替换（control + h）已更改，允许在正则表达式模式和扩展模式下使用\\ r \\ n和\\ t。

我更新到了最新版本，但是它不起作用。 使用扩展模式可以查找换行符，但无法指定通配符。

但是，您可以使用宏来克服此问题。

准备搜索以查找唯一段落（例如Title<br>\\r\\n ，在这里您可以使用扩展模式）
开始录制宏
按F3使用您的搜索
标记四行并删除它们
停止录制宏...完成！

只需重播它，它就会删除您想要删除的内容。

Answer 2

如果我正确理解了您的请求，则此模式与您的字符串匹配：

Title<br>( ?)\n([0-9]+)<br>( ?)\n<hr>( ?)\n<A name=([0-9]+)></a>Footer<br>

我使用Regex Coach尝试复杂的regex模式。 其他实用程序也可用。

编辑

由于我不使用Notepad ++，因此无法确定该模式是否适合您。 很抱歉，如果确实如此。 （我本人是一个TextPad男人，它确实可以使用该工具）。

查找并替换为记事本++

问题描述

2 个解决方案

解决方案1
1 已采纳 2010-06-11 12:05:17

解决方案2
0 2010-06-11 12:04:34

查找并替换为记事本++

问题描述

2 个解决方案

解决方案1 1 已采纳 2010-06-11 12:05:17

解决方案2 0 2010-06-11 12:04:34

解决方案1
1 已采纳 2010-06-11 12:05:17

解决方案2
0 2010-06-11 12:04:34