Perl 正则表达式组合捕获组和第 n 个字符串

Question

我有如下文件：

<div title="alpha" Mauris eu justo sed nisi aliquet blandit. <span name="ll">beta</span> Fusce in pharetra nisi. <span name="ll">gamma</span> Aliquam vehicula imperdiet turpis et rhoncus. <span name="ll">delta</span> Donec faucibus augue quis neque dictum, at rutrum dolor placerat.</div>

我尝试在保留 rest 的顺序的同时获取第 n 个name="ll"属性的内容来代替title= content。

例如，第二个name="ll"会让我：

<div title="gamma" Mauris eu justo sed nisi aliquet blandit. <span name="ll">beta</span> Fusce in pharetra nisi. Aliquam vehicula imperdiet turpis et rhoncus. <span name="ll">delta</span> Donec faucibus augue quis neque dictum, at rutrum dolor placerat.</div>

等等。

我的尝试：

find . -type f -exec perl -pi -w -e 's/(title=)"?[^"\s]*"?(.*)((?:.*?\h+class="ll">){1}.*?)\h+class="ll">"?([^"\s]+)"?(<.*)/$1"$3"$2$4/' \{\} \;

我在哪里犯错？

Answer 1

这个 perl 解决方案应该适合您：

# matching 2nd <span name="ll">
perl -pe 's~(title=)"?[^"\s]*"?((?:.*?\h+<span name="ll">){1}.*?)\h+<span name="ll">([^<]+)</span>~$1"$3"$2~' file

<div title="gamma" Mauris eu justo sed nisi aliquet blandit. <span name="ll">beta</span> Fusce in pharetra nisi. Aliquam vehicula imperdiet turpis et rhoncus. <span name="ll">delta</span> Donec faucibus augue quis neque dictum, at rutrum dolor placerat.</div>

# matching 3rd <span name="ll">
perl -pe 's~(title=)"?[^"\s]*"?((?:.*?\h+<span name="ll">){2}.*?)\h+<span name="ll">([^<]+)</span>~$1"$3"$2~' file

<div title="delta" Mauris eu justo sed nisi aliquet blandit. <span name="ll">beta</span> Fusce in pharetra nisi. <span name="ll">gamma</span> Aliquam vehicula imperdiet turpis et rhoncus. Donec faucibus augue quis neque dictum, at rutrum dolor placerat.</div>

正则表达式解释：

解释：

(title=) : 匹配title=并在组 #1 中捕获
"?[^"\s]+"? ：匹配可选引用的非空格字符串
( : 开始捕获组 #2
- (?: : 启动非捕获组
 - .*? : 匹配任何文本（惰性匹配）
 - \h+ : 匹配 1+ 个空格
 -  ：匹配文本
- ){1} ：结束非捕获组并重复此组{1}次
- .*? : 匹配任何文本（惰性匹配）
) : 结束捕获组 #2
\h+ : 匹配 1+ 个空格
 ：匹配文本
([^<]+) ：匹配任何不是>的字符的 1+ 并在组 #3 中捕获
 : 匹配
$1"$3"$2 : 替换零件

Answer 2

不要在一次替换中做所有事情，而是按步骤进行：

perl -wpe '$n = 2;
           @m = /<span name="ll">([^<]+)/g;
           s/title="[^"]+"/title="$m[$n-1]"/;
           s:<span name="ll">\Q$m[$n-1]\E</span> ::;'

IE

提取所有可以移动的字符串；
用想要的字符串替换标题；
删除包含所需字符串的跨度。

Perl 正则表达式组合捕获组和第 n 个字符串

问题描述

2 个解决方案

解决方案1
1 2022-08-05 17:19:12

解决方案2
0 2022-08-05 15:56:54

Perl 正则表达式组合捕获组和第 n 个字符串

问题描述

2 个解决方案

解决方案1 1 2022-08-05 17:19:12

解决方案2 0 2022-08-05 15:56:54

解决方案1
1 2022-08-05 17:19:12

解决方案2
0 2022-08-05 15:56:54