繁体   English   中英

将URL中的txt文件读入BeautifulSOUP

[英]Reading a txt file in url into BeautifulSOUP

我有一些指向txt文件的url地址,该地址包含html代码。 这是一个示例链接:

http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt

我想用BeautifulSoup和以下代码阅读此html代码:

from bs4 import BeautifulSoup
import urllib2 

url =    "http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
print (soup.prettify())

但是,我遇到了很多错误,例如:

File "C:/Users/.../aa.py", line 7, in <module> print (soup.prettify()) File "build\\bdist.win32\\egg\\bs4\\element.py", line 1097, in prettify return self.decode(True, formatter=formatter)

我怀疑发生这种情况是因为url是txt文件而不是html。 我对吗? 如果是这样,有人可以让我知道这里的解决方案吗?

您可以尝试仅将文本文件的HTML部分(来自标记)输入到Beautiful汤中,我想它会中断,因为文本文件的开头不包含任何HTML。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM