[英]Beautifulsoup web scraper issue
我正在使用BeautifulSoup和机械设备从网页中查找一些内容。 问题是,有时找不到我要查找的字符串。 我不知道有什么问题
对于许多网页,它可以正常工作数月,但突然停止工作。 然后,我必须重新启动程序,并希望获得正确的结果。
问题出在data.find(text=re.compile('string to find'))
。 网页始终在下载,但有时找不到该字符串。 我认为问题可能出在加载页面的HTML
格式错误? 任何想法?
这只是我正在使用的代码的一小部分,仅供您查看
from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re
def get_page(url):
mech = Browser()
page = mech.open(url)
return page.read()
def test():
data = soup(get_page('some url'))
div_pages = data.find(text=re.compile('string to find'))
try: pager = div_pages.strip().split(' ')
except:
print div_pages
sys.exit()
print 'ok'
if __name__ == '__main__':
test()
我帮助某人解决了类似的问题,事实证明这是字符串的编码。 此链接(来自他们的文档)可能会在途中为您提供帮助-Beautiful Soup给您Unicode,该死的
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.