包含字符串文字的Tokenise行

Question

使用str.split来"print 'Hello, world!' times 3" "print 'Hello, world!' times 3"返回列表["print", "'Hello,", "world!'", "times", "3"] 。 但是，我想要结果["print", "'Hello, world!'", "times", "3"] 。 我怎样才能做到这一点？

Answer 1

如果要从split中排除引号中的单词，则可以使用shlex.split ：

import shlex

s = "print 'Hello, world!' times 3"
print(shlex.split(s))
# ['print', 'Hello, world!', 'times', '3']

Answer 2

如果需要，此正则表达式将捕获引号。

import re

s = "print 'hello, world!' 3 times"
re.findall(r'(\w+|\'.+\')',s)

Answer 3

.split()函数根据定界符分割str 。 默认的分隔符是blank space 。 它不在乎字符串中的' 。 如果您想将'内'单词视为一个单词。 您应该使用shlex库，或者可以编写regex表达式。 当然， split()并不是您想要的。

包含字符串文字的Tokenise行

问题描述

3 个解决方案

解决方案1
3 2016-09-27 21:04:43

解决方案2
1 已采纳 2016-09-27 21:35:37

解决方案3
0 2016-09-27 21:06:22

包含字符串文字的Tokenise行

问题描述

3 个解决方案

解决方案1 3 2016-09-27 21:04:43

解决方案2 1 已采纳 2016-09-27 21:35:37

解决方案3 0 2016-09-27 21:06:22

解决方案1
3 2016-09-27 21:04:43

解决方案2
1 已采纳 2016-09-27 21:35:37

解决方案3
0 2016-09-27 21:06:22