繁体   English   中英

从 html doc 获取非英文文本

[英]Gettin non-english text from html doc

我试图在 python 中获取 html 文档的标题,但是得到了奇怪的符号。 我猜那是因为编码,但是 utf-8 编码的 html 文档。 有什么办法可以得到正常的信件吗?

这是代码,我得到了什么:

from bs4 import BeautifulSoup

 with open("index.html") as file:
     src = file.read()


soup = BeautifulSoup(src, "lxml")

title = soup.title.text

print(title)

Главная страница

打开文件时需要指定编码类型:

 with open("index.html", encoding='utf-8') as file:
     src = file.read()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM