从 HTML 字符串中提取字符串

Question

我想从一个 html 字符串中提取一个数字（我通常不知道这个数字）。

关键部分如下所示：

<test test="3" test="search_summary_figure WHR WVM">TOTAL : 286</test>
<tagend>

我想提取“286”。 我想做一些类似“在“L：”之后开始并在“<”之前停止的事情。我该怎么做？在此先非常感谢您。

Answer 1

如果字符串 "TOTAL : number" 是唯一的，则使用正则表达式首先搜索此子字符串，然后从中提取数字。

import re

string = 'test test="3" test="search_summary_figure WHR WVM">TOTAL : 286</test>'

reg__expr = r'TOTAL\s:\s\d+'  # TOTAL<whitespace>:<whitespace><number>
# find the substring
result = re.findall(reg__expr, string)
if result:

   substring = result[0]

   reg__expr = r'\d+'  # <number>
   result = re.findall(reg__expr, substring)
   number = int(result[0])

   print(number)

你可以在这里测试你自己的正则表达式https://regex101.com/

Answer 2

在你的 view.py 文件中，你可以试试这个：

import re
my_string="TOTAL : 286"
int(re.search(r'\d+', my_string).group())

286

Answer 3

您可以像下面这样尝试以下操作：

    line = "TOTAL : 286"
    if line.startswith('TOTAL : '):
        print(line[8:len(line)])

输出：

Answer 4

您可以使用字符串分区从整个 HTML 字符串中提取“数字”字符串，如下所示（假设 HTML 代码在 html_string 变量中）：

num_string=html_string.partition("TOTAL:")[2].partition("<")[0]

在那里你得到 num_string 与数字作为字符串，然后简单地将其转换为整数或任何你想要的。 请记住，这将处理看起来像“TOTAL：anything_goes_here <”的任何第一次出现，因此您要确保此模式是唯一的。

Answer 5

如果您的 HTML 字符串是这样的：

html_string = """<test test="3" test="search_summary_figure WHR WVM">TOTAL : 286</test>
<tagend>"""

尝试这个：

int(html_string.split("</test>")[0].split(":")[-1].replace(" ", ""))

从 HTML 字符串中提取字符串

问题描述

5 个解决方案

解决方案1
1 2020-03-04 10:33:27

解决方案2
0 2020-03-04 10:23:36

解决方案3
0 2020-03-04 10:30:32

解决方案4
0 2020-03-04 10:36:37

解决方案5
0 2020-03-04 10:50:51

从 HTML 字符串中提取字符串

问题描述

5 个解决方案

解决方案1 1 2020-03-04 10:33:27

解决方案2 0 2020-03-04 10:23:36

解决方案3 0 2020-03-04 10:30:32

解决方案4 0 2020-03-04 10:36:37

解决方案5 0 2020-03-04 10:50:51

解决方案1
1 2020-03-04 10:33:27

解决方案2
0 2020-03-04 10:23:36

解决方案3
0 2020-03-04 10:30:32

解决方案4
0 2020-03-04 10:36:37

解决方案5
0 2020-03-04 10:50:51