[英]Gettin non-english text from html doc
我试图在 python 中获取 html 文档的标题,但是得到了奇怪的符号。 我猜那是因为编码,但是 utf-8 编码的 html 文档。 有什么办法可以得到正常的信件吗?
这是代码,我得到了什么:
from bs4 import BeautifulSoup
with open("index.html") as file:
src = file.read()
soup = BeautifulSoup(src, "lxml")
title = soup.title.text
print(title)
Главная страница
打开文件时需要指定编码类型:
with open("index.html", encoding='utf-8') as file:
src = file.read()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.