Python - 如何按非字母字符拆分字符串

Question

我正在尝试使用 python 来解析 C++ 源代码行。 我唯一感兴趣的是包含指令。

    #include "header.hpp"

我希望它灵活，并且仍然可以使用糟糕的编码风格，例如：

          #   include"header.hpp"

我已经到了可以在 # 之前和之后读取线条和修剪空格的地步。 但是，我仍然需要通过读取字符串来找出它是什么指令，直到遇到非字母字符，无论天气如何，它都是空格、引号、制表符或尖括号。

所以基本上我的问题是：如何拆分以 alpha 开头的字符串，直到遇到非 alpha？

我想我可以用正则表达式来做到这一点，但我没有在文档中找到任何我想要的东西。

此外，如果有人对我如何在引号或尖括号内获取文件名有建议，那将是一个加号。

Answer 1

您使用正则表达式的直觉是正确的。

import re
re.split('[^a-zA-Z]', string_to_split)

[^a-zA-Z]部分表示“非字母字符”。

Answer 2

你可以用正则表达式来做到这一点。 但是，您也可以使用简单的while循环。

def splitnonalpha(s):
   pos = 1
   while pos < len(s) and s[pos].isalpha():
      pos+=1
   return (s[:pos], s[pos:])

测试：

>>> splitnonalpha('#include"blah.hpp"')
('#include', '"blah.hpp"')

Answer 3

其他人提到的在我看来最好的两个选项是re.split和re.findall ：

>>> import re
>>> re.split(r'\W+', '#include "header.hpp"')
['', 'include', 'header', 'hpp', '']
>>> re.findall(r'\w+', '#include "header.hpp"')
['include', 'header', 'hpp']

快速基准：

>>> setup = "import re; word_pattern = re.compile(r'\w+'); sep_pattern = re.compile(r'\W+')"
>>> iterations = 10**6
>>> timeit.timeit("re.findall(r'\w+', '#header foo bar!')", setup=setup, number=iterations)
3.000092029571533
>>> timeit.timeit("word_pattern.findall('#header foo bar!')", setup=setup, number=iterations)
1.5247418880462646
>>> timeit.timeit("re.split(r'\W+', '#header foo bar!')", setup=setup, number=iterations)
3.786440134048462
>>> timeit.timeit("sep_pattern.split('#header foo bar!')", setup=setup, number=iterations)
2.256173849105835

功能上的区别在于re.split保留空令牌。 这对于标记化目的通常没有用，但以下内容应与re.findall解决方案相同：

>>> filter(bool, re.split(r'\W+', '#include "header.hpp"'))
['include', 'header', 'hpp']

Answer 4

import re
s = 'foo bar- blah/hm.lala'
print(re.findall(r"\w+",s))

输出：['foo', 'bar', 'blah', 'hm', 'lala']

Answer 5

您可以使用正则表达式。 \\W标记将匹配所有非单词字符（与非字母数字字符大致相同）。 单词字符是AZ 、 az 、 0-9和_ 。 如果你也想匹配下划线，你可以做[\\W_] 。

>>> import re
>>> line = '#   include"header.hpp"  ' 
>>> m = re.match(r'^\s*#\s*include\W+([\w\.]+)\W*$', line)
>>> m.group(1)
'header.hpp'

Answer 6

import re
re.split('[^a-zA-Z0-9]', string_to_split)

对于所有 !(字母数字) 字符

Answer 7

这有效：

import re

test_str = '    #   include "header.hpp"'

match = re.match(r'\s*#\s*include\s*("[\w.]*")', test_str)
if match:
    print match.group(1)

Answer 8

虽然不准确，但大多数解析头指令是这样的

(?m)^\\h*#\\h*include\\h*["<](\\w[\\w.]*)\\h*[">]

其中， (?m) 是多行模式， \\h 是水平空白（又名 [^\\S\\r\\n] ）。

Python - 如何按非字母字符拆分字符串

问题描述

8 个解决方案

解决方案1
32 2016-02-05 18:50:16

解决方案2
11 已采纳 2016-02-05 18:48:23

解决方案3
9 2016-06-17 11:36:31

解决方案4
3 2016-02-05 18:48:35

解决方案5
3 2016-02-05 18:49:05

解决方案6
1 2019-03-26 05:39:59

解决方案7
0 2016-02-05 18:54:18

解决方案8
0 2016-02-05 19:17:28

Python - 如何按非字母字符拆分字符串

问题描述

8 个解决方案

解决方案1 32 2016-02-05 18:50:16

解决方案2 11 已采纳 2016-02-05 18:48:23

解决方案3 9 2016-06-17 11:36:31

解决方案4 3 2016-02-05 18:48:35

解决方案5 3 2016-02-05 18:49:05

解决方案6 1 2019-03-26 05:39:59

解决方案7 0 2016-02-05 18:54:18

解决方案8 0 2016-02-05 19:17:28

解决方案1
32 2016-02-05 18:50:16

解决方案2
11 已采纳 2016-02-05 18:48:23

解决方案3
9 2016-06-17 11:36:31

解决方案4
3 2016-02-05 18:48:35

解决方案5
3 2016-02-05 18:49:05

解决方案6
1 2019-03-26 05:39:59

解决方案7
0 2016-02-05 18:54:18

解决方案8
0 2016-02-05 19:17:28