如何使用正则表达式搜索字符串

Question

我现在使用正则表达式处理一些字符串，现在我有一个特殊的字符串，不容易使用正则表达式来处理。 下面是一些示例字符串。 TP-LINK是一个示例，它可以是具有类似格式的其他路由器供应商 。

TP-LINK Wireless Range Extender WA810RE 
TP-LINK Wireless WA850RE  
TP-LINK Wireless Range Extender WA850RE  
TP-LINK Wireless Range Extender WA890RE

正如你在上面的字符串中看到的那样，我想获得TP-LINK ，而不是使用TL和WA850RE ，那么最终的结果是TLWA850RE

我在正则表达式中使用前瞻，但它似乎不起作用。

re1 = 'TP-LINK Wireless Range Extender WA850RE'
m1 = re.search('(T(?=P-)L(?=INK)(.+)(WA\\w+))', re1)

Answer 1

关于原始正则表达式的一些注意事项：

前瞻只在字符串的末尾才有意义; 你可能正在寻找一个非捕获组，例如T(?:P-)而不是T(?=P-) ，但如果它们只出现一次（如果不需要放置T(?=P-) ，你甚至不需要它们小组后面的* ， +或? ）
那些"实际上并不是字符串的一部分，所以你应该从正则表达式中删除它们
仅将捕获组放在要在结果中使用的那些部分周围。

放在一起，你可以这样做：

>>> m = re.search(r'(T)P-(L)INK.+(WA\w+)', re1)
>>> ''.join(m.groups())
'TLWA850RE'

但是，如果要缩写字符串，则应该匹配字符串并使用正则表达式提取重要部分，然后为结果添加前缀。 如果组中的TP-LINK部分总是相同的话，则无需捕获它们。 这也将进一步简化您的正则表达式。

>>> m = re.search(r'TP-LINK.+(WA\w+)', re1)
>>> "TL" + m.group(1)
'TLWA850RE'

然后是其他案例（Netgear，Cisco等）的类似正则表达式

Answer 2

让我快点问，为什么你想要这样的正则表达式。 如果它是一个模式，它出现在您使用的许多字符串上，那些都适用于某个规则，并且该过程的结果总是根据要提供的规则，而正则表达式可能是正确的工具。

例如，像100s这样的数据：

TP-LINK Wireless Range Extender WA850RE > TLWA850RE
CI-CISCO WLAN Extender CWL12345 > CCWL12345
NG-NETGEAR Wifi Ext NG345 > NGNG345

要实现这一点，您可以使用：

(?m)^(\w)\w+-(\w)[\w\s]+?([A-Z0-9]+)$

(?m) perform each pattern between "^" and "$" on each line
^(\w) catch the first character of the first word starting the line
\w+ match any other following word characters
- match a dash
(\w) match the first character following the dash
[\w\s]+? match any words and whitespace as few(non-greedy) as possible
([A-Z0-9]+)$ match any combination of capitals and numbers till EOL

但是如果你只是有一些固定的规则，那些出现在以完全相同的序列开始的字符串上，并且正则表达式应该是执行静态替换的复杂方法，那么你的工具可能是错误的。 例如：

TP-LINK Wireless Range Extender WA850RE > TLWA850RE
TP-LINK Wireless Range Base WA950RB > TLWA950RB
TP-LINK Wireless Access Point WA87AP > TLWA870AP

在后一种情况下，你应该坚持简单的文本替换，在第一种情况下，正则表达式可能是合适的。

换句话说，我怀疑你想要的正则表达式是适合你工作的正确工具。

Answer 3

以下正则表达式将帮助您找到所需的匹配：

(\w)\w-(\w)\w+ .* (\w+)$

与替代品

\1\2\3

DEMO

Answer 4

试试这个：这适用于任何物品..

import re
p = re.compile(ur'(\w)\w*-(\w).+(\b\w+)', re.MULTILINE | re.IGNORECASE)
test_str = u"TP-LINK Wireless Range Extender WA850RE\nCI-CISCO WLAN Extender CWL12345\nNG-NETGEAR Wifi Ext NG345"
subst = u"\1\2\3"

result = re.sub(p, subst, test_str)

演示

如何使用正则表达式搜索字符串

问题描述

4 个解决方案

解决方案1
3 已采纳 2015-06-23 08:23:06

解决方案2
0 2015-06-23 08:14:00

解决方案3
0 2015-06-23 08:20:13

解决方案4
0 2015-06-23 09:08:58

如何使用正则表达式搜索字符串

问题描述

4 个解决方案

解决方案1 3 已采纳 2015-06-23 08:23:06

解决方案2 0 2015-06-23 08:14:00

解决方案3 0 2015-06-23 08:20:13

解决方案4 0 2015-06-23 09:08:58

解决方案1
3 已采纳 2015-06-23 08:23:06

解决方案2
0 2015-06-23 08:14:00

解决方案3
0 2015-06-23 08:20:13

解决方案4
0 2015-06-23 09:08:58