繁体   English   中英

Beautifulsoup Web刮板问题

[英]Beautifulsoup web scraper issue

我正在使用BeautifulSoup和机械设备从网页中查找一些内容。 问题是,有时找不到我要查找的字符串。 我不知道有什么问题

对于许多网页,它可以正常工作数月,但突然停止工作。 然后,我必须重新启动程序,并希望获得正确的结果。

问题出在data.find(text=re.compile('string to find')) 网页始终在下载,但有时找不到该字符串。 我认为问题可能出在加载页面的HTML格式错误? 任何想法?

这只是我正在使用的代码的一小部分,仅供您查看

from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re

def get_page(url):
    mech = Browser()
    page = mech.open(url)
    return page.read()

def test():
    data = soup(get_page('some url'))

    div_pages = data.find(text=re.compile('string to find'))

    try: pager = div_pages.strip().split(' ')
    except:
        print div_pages
        sys.exit()

    print 'ok'

if __name__ == '__main__':
    test()

我帮助某人解决了类似的问题,事实证明这是字符串的编码。 此链接(来自他们的文档)可能会在途中为您提供帮助-Beautiful Soup给您Unicode,该死的

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM