如何從python上的html標簽獲取某些文本？

Question

我正在從 API 制作 Python md5 解密器，但問題是 API 正在發回 HTML 反饋。 如何獲取<font color=green>之間的文本？

{"error":0,"msg":"<font color=blue><b>Live</b></font><font color=green>Jumpman#23</font> | [MD5 Decrypt] .S/C0D3"}

Answer 1

我建議使用 HTML 解析器作為Beautiful Soup ：

>>> from bs4 import BeautifulSoup
>>> d = {"error":0,"msg":"<font color=blue><b>Live</b></font><font color=green>Jumpman#23</font> | [MD5 Decrypt] .S/C0D3"}
>>> soup = BeautifulSoup(d['msg'], 'html.parser')
>>> soup.font.attrs
{'color': 'blue'}

您將獲得一個包含鍵、值解析作為屬性名稱、值的字典。

更新

獲取文本"Jumpman#23"

>>> soup.findAll("font", {"color": "green"})[0].contents[0]
'Jumpman#23'

Answer 2

如果您知道目標文本正好是<font color=green> ，那么您可以使用簡單的字符串操作：

msg = "<font color=blue><b>Live</b></font><font color=green>Jumpman#23</font> | [MD5 Decrypt] .S/C0D3"
start_pattern = "<font color=green>"
stop_pattern = "<"
start_index = msg.find(start_pattern) + len(start_pattern)
stop_index = start_index + msg[start_index:].find(stop_pattern)
print msg[start_index:stop_index]

Answer 3

您可以使用bs4和相鄰的兄弟組合器作為字體標簽

from bs4 import BeautifulSoup as bs
s = {"error":0,"msg":"<font color=blue><b>Live</b></font><font color=green>Jumpman#23</font> | [MD5 Decrypt] .S/C0D3"}
soup = bs(s['msg'], 'lxml')
data =  soup.select_one('font + font').text
print(data)

如何從python上的html標簽獲取某些文本？

問題描述

3 個解決方案

解決方案1
2 2019-04-17 15:58:55

更新

解決方案2
0 2019-04-17 16:09:48

解決方案3
0 2019-04-17 16:16:21

如何從python上的html標簽獲取某些文本？

問題描述

3 個解決方案

解決方案1 2 2019-04-17 15:58:55

更新

解決方案2 0 2019-04-17 16:09:48

解決方案3 0 2019-04-17 16:16:21

解決方案1
2 2019-04-17 15:58:55

解決方案2
0 2019-04-17 16:09:48

解決方案3
0 2019-04-17 16:16:21