我如何在 a 之前獲得所有內容：在字符串 Python

Question

我正在尋找一種在 a: 之前獲取字符串中所有字母的方法，但我不知道從哪里開始。 我會使用正則表達式嗎？ 如果有怎么辦？

string = "Username: How are you today?"

有人可以告訴我一個我能做什么的例子嗎？

Answer 1

只需使用split功能。 它返回一個列表，因此您可以保留第一個元素：

>>> s1.split(':')
['Username', ' How are you today?']
>>> s1.split(':')[0]
'Username'

Answer 2

使用index ：

>>> string = "Username: How are you today?"
>>> string[:string.index(":")]
'Username'

索引將為您提供:在字符串中的位置，然后您可以對其進行切片。

如果你想使用正則表達式：

>>> import re
>>> re.match("(.*?):",string).group()
'Username'

從字符串的開頭match匹配項。

你也可以使用itertools.takewhile

>>> import itertools
>>> "".join(itertools.takewhile(lambda x: x!=":", string))
'Username'

Answer 3

你不需要regex

>>> s = "Username: How are you today?"

您可以使用split方法在':'字符上拆分字符串

>>> s.split(':')
['Username', ' How are you today?']

並切出元素[0]以獲取字符串的第一部分

>>> s.split(':')[0]
'Username'

Answer 4

我已經在 Python 3.7.0 (IPython) 下對這些不同的技術進行了基准測試。

TLDR

最快（當拆分符號c已知時）：預編譯的正則表達式。
最快（否則）： s.partition(c)[0] 。
安全（即，當c可能不在s ）：分區、拆分。
不安全：索引，正則表達式。

代碼

import string, random, re

SYMBOLS = string.ascii_uppercase + string.digits
SIZE = 100

def create_test_set(string_length):
    for _ in range(SIZE):
        random_string = ''.join(random.choices(SYMBOLS, k=string_length))
        yield (random.choice(random_string), random_string)

for string_length in (2**4, 2**8, 2**16, 2**32):
    print("\nString length:", string_length)
    print("  regex (compiled):", end=" ")
    test_set_for_regex = ((re.compile("(.*?)" + c).match, s) for (c, s) in test_set)
    %timeit [re_match(s).group() for (re_match, s) in test_set_for_regex]
    test_set = list(create_test_set(16))
    print("  partition:       ", end=" ")
    %timeit [s.partition(c)[0] for (c, s) in test_set]
    print("  index:           ", end=" ")
    %timeit [s[:s.index(c)] for (c, s) in test_set]
    print("  split (limited): ", end=" ")
    %timeit [s.split(c, 1)[0] for (c, s) in test_set]
    print("  split:           ", end=" ")
    %timeit [s.split(c)[0] for (c, s) in test_set]
    print("  regex:           ", end=" ")
    %timeit [re.match("(.*?)" + c, s).group() for (c, s) in test_set]

結果

String length: 16
  regex (compiled): 156 ns ± 4.41 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        19.3 µs ± 430 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            26.1 µs ± 341 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  26.8 µs ± 1.26 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            26.3 µs ± 835 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            128 µs ± 4.02 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

String length: 256
  regex (compiled): 167 ns ± 2.7 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        20.9 µs ± 694 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  index:            28.6 µs ± 2.73 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  27.4 µs ± 979 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            31.5 µs ± 4.86 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            148 µs ± 7.05 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

String length: 65536
  regex (compiled): 173 ns ± 3.95 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        20.9 µs ± 613 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            27.7 µs ± 515 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  27.2 µs ± 796 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            26.5 µs ± 377 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            128 µs ± 1.5 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

String length: 4294967296
  regex (compiled): 165 ns ± 1.2 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        19.9 µs ± 144 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            27.7 µs ± 571 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  26.1 µs ± 472 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            28.1 µs ± 1.69 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            137 µs ± 6.53 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Answer 5

為此， partition()可能比 split() 更好，因為它在沒有分隔符或更多分隔符的情況下具有更好的可預測結果。

Answer 6

要使用 RegEx 解決此問題，您可以使用 Negative Lookahead/Negative Lookbehind 方法。

例如，下面 Python 的代碼：

import re
string = "Username: How are you today?"
regex='(\S*)[:]'

data=re.findall(regex, string)
print(data)

我希望，這很有幫助。

我如何在 a 之前獲得所有內容：在字符串 Python

問題描述

6 個解決方案

解決方案1
232 已采納 2014-12-09 19:42:18

解決方案2
63 2014-12-09 19:44:05

解決方案3
22 2014-12-09 19:42:20

解決方案4
12 2018-12-09 11:26:14

TLDR

代碼

結果

解決方案5
4 2019-08-29 22:09:27

解決方案6
0 2022-08-24 12:02:32

我如何在 a 之前獲得所有內容：在字符串 Python

問題描述

6 個解決方案

解決方案1 232 已采納 2014-12-09 19:42:18

解決方案2 63 2014-12-09 19:44:05

解決方案3 22 2014-12-09 19:42:20

解決方案4 12 2018-12-09 11:26:14

TLDR

代碼

結果

解決方案5 4 2019-08-29 22:09:27

解決方案6 0 2022-08-24 12:02:32

解決方案1
232 已采納 2014-12-09 19:42:18

解決方案2
63 2014-12-09 19:44:05

解決方案3
22 2014-12-09 19:42:20

解決方案4
12 2018-12-09 11:26:14

解決方案5
4 2019-08-29 22:09:27

解決方案6
0 2022-08-24 12:02:32