繁体 English 中英

如何在 Python3 中删除 HTML 标签

[英]How to remove HTML Tags in Python3

原文 2019-06-24 00:16:04 3 2 python/ html/ regex/ parsing/ urllib

我正在编写一个简单的脚本来在终端中打印出我的 IP 地址。 我无法从打印语句中删除 HTML 标记。

我曾尝试使用 urllib 库中的 .strip() 函数。 我对正则表达式的了解不足以输入此代码。

import re
import urllib.request, urllib.parse, urllib.error
import json


data = urllib.request.urlopen('http://checkip.dyndns.org')
for line in data:
    print(line.decode().strip())

我希望输出仅是我的 IP (xxx.xx.xx.xxx) 但我得到以下信息

"<html><head><title>当前IP检查</title></head><body>当前IP地址：XXX.XX.XX.XXX</body></html>"

2 个解决方案

您尝试做的不是一个困难的字符串操作问题，而是使用不同的服务有一种更简洁的方法。 一个是ipify.org 。

import json
from urllib import request

with request.urlopen('https://api.ipify.org?format=json') as response:
    print(json.loads(response.read())['ip'])

如果您想使用正则表达式，而不是剥离标签，您可以使用括号匹配您感兴趣的部分，这是一个示例：

import re
import urllib.request


data = urllib.request.urlopen('http://checkip.dyndns.org').read().decode()
print(re.search(r'Current IP Address: ([\d\.]+)', data).group(1))

您可以在https://docs.python.org/2/library/re.html#match-objects找到更多信息和示例

要删除一般的 HTML 标签，您可以使用 re:

print(re.sub('<[^<]+?>', '', '<html>foo</html>'))

或者更容易使用 BeatufilSoup 而不是 re：

from bs4 import BeautifulSoup
print(BeautifulSoup('<html>foo</html>').get_text())

删除 HTML 标签 python

[英]Remove HTML Tags python

如何使用 python 从 html 中删除标签

[英]How to remove tags from html using python

如何从python字符串中删除HTML标签？

[英]How to remove HTML tags from python strings?

删除python3中html中标记之间的换行符

[英]Removing newlines between tags in html in python3

BeautifulSoup 和 Python 删除 HTML 标签

[英]BeautifulSoup and Python Remove HTML Tags

Python-删除过多的html标签

[英]Python - remove excessive html tags

Python3：如何根据`h`标签的级别将纯html转换为嵌套字典？

[英]Python3: How to convert plain html into nested dictionary based on level of `h` tags?

如何使用正则表达式从python中删除字符串中的标签？（不是HTML）

[英]How to remove tags from a string in python using regular expressions? (NOT in HTML)

如何使用Python从html字符串中剥离（不删除）指定的标签？

[英]How to strip(not remove) specified tags from a html string using Python?

python 中包含 class 的 HTML 标签如何完全删除？

[英]How can you completely remove HTML tags containing a class in python?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 删除 HTML 标签 python 如何使用 python 从 html 中删除标签如何从python字符串中删除HTML标签？删除python3中html中标记之间的换行符 BeautifulSoup 和 Python 删除 HTML 标签 Python-删除过多的html标签 Python3：如何根据`h`标签的级别将纯html转换为嵌套字典？如何使用正则表达式从python中删除字符串中的标签？（不是HTML）如何使用Python从html字符串中剥离（不删除）指定的标签？ python 中包含 class 的 HTML 标签如何完全删除？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM