提取單詞和分隔符之間的單詞python

Question

我從 word 文檔（.doc）中提取了一些文本數據並存儲在一個變量my_text ，這樣

my_text[2] = '2 Running Hrs                         -  \tPort M/E RPM  \t-  \t'

這里\\t是文檔本身的分隔符。 我正在嘗試在單詞“ Running Hrs ”和“ \\t ”分隔符之間提取單詞/字符。 這樣我就會得到一個輸出' - '
在這里我試過

試驗 1

import re
re.search('Running Hrs(.*)\t', my_text[2].strip()).group(1)

輸出

 '                         -  \tPort M/E RPM  '

試驗 2

print(re.findall(r'\Running Hrs([^]\t*)\]', str(my_text[2])))

輸出

ERROR: error: bad escape \R

對此有任何建議。

Answer 1

您的第一次嘗試與您想要的非常接近，因為您只需要包含一個? 標志以確保您的捕獲組是非貪婪的，如下所示：

r'Running Hrs(.*?)\t'

沒有這個? 標志，您的捕獲組被認為是貪婪的，並且會嘗試盡可能多地匹配到最后一個\\t ，而非貪婪的表達式只會捕獲到第一個\\t 。

Answer 2

你可以在你的代碼中使用這樣的東西

start_phrase = 'Running Hrs'

start = my_text[2].index(start_phrase)+len(start_phrase)
end = my_text[2].index('\t')

my_text[2][start:end].strip()

Answer 3

您的正則表達式幾乎是正確的，但匹配盡可能多的字符（貪婪行為）。 要獲得最少的匹配字符，您可以使用 '?' 將行為設置為非貪婪。 表達。

在提取開始模式和 '/t' 之間的文本后，還要執行 .strip() 以刪除剩余的空白。

my_text[2] = '2 Running Hrs                         -  \tPort M/E RPM  \t-  \t'

import re
re.search('Running Hrs(.*?)\t', my_text[2]).group(1).strip()

見： https : //docs.python.org/3/library/re.html

Answer 4

如果你願意-因此，我建議在group(1)的結果中使用 strip 。

如果\\t是文檔本身的分隔符，並且除了末尾的\\t之外沒有其他出現的\\t ，則在整行上使用 strip 將刪除它，並且模式將不匹配。

而不是使用非貪婪的.*? 您可以使用否定字符類[^代替，匹配除制表符或換行符以外的任何字符。

Running Hrs([^\t\r\n]+)\t

正則表達式演示| Python 演示

import re

my_text = '2 Running Hrs                         -  \tPort M/E RPM  \t-  \t'
print(re.search('Running Hrs([^\t\r\n]+)\t', my_text).group(1).strip())

輸出

-

提取單詞和分隔符之間的單詞python

問題描述

4 個解決方案

解決方案1
4 已采納 2020-03-06 06:42:48

解決方案2
1 2020-03-06 06:49:41

解決方案3
0 2020-03-06 07:10:02

解決方案4
0 2020-03-06 08:50:16

提取單詞和分隔符之間的單詞python

問題描述

4 個解決方案

解決方案1 4 已采納 2020-03-06 06:42:48

解決方案2 1 2020-03-06 06:49:41

解決方案3 0 2020-03-06 07:10:02

解決方案4 0 2020-03-06 08:50:16

解決方案1
4 已采納 2020-03-06 06:42:48

解決方案2
1 2020-03-06 06:49:41

解決方案3
0 2020-03-06 07:10:02

解決方案4
0 2020-03-06 08:50:16