Beautifulsoup Web刮板问题

Question

我正在使用BeautifulSoup和机械设备从网页中查找一些内容。 问题是，有时找不到我要查找的字符串。 我不知道有什么问题

对于许多网页，它可以正常工作数月，但突然停止工作。 然后，我必须重新启动程序，并希望获得正确的结果。

问题出在data.find(text=re.compile('string to find')) 。 网页始终在下载，但有时找不到该字符串。 我认为问题可能出在加载页面的HTML格式错误？ 任何想法？

这只是我正在使用的代码的一小部分，仅供您查看

from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re

def get_page(url):
    mech = Browser()
    page = mech.open(url)
    return page.read()

def test():
    data = soup(get_page('some url'))

    div_pages = data.find(text=re.compile('string to find'))

    try: pager = div_pages.strip().split(' ')
    except:
        print div_pages
        sys.exit()

    print 'ok'

if __name__ == '__main__':
    test()

Answer 1

我帮助某人解决了类似的问题，事实证明这是字符串的编码。 此链接（来自他们的文档）可能会在途中为您提供帮助-Beautiful Soup给您Unicode，该死的

Beautifulsoup Web刮板问题

问题描述

1 个解决方案

解决方案1
0 2011-09-01 08:57:08

Beautifulsoup Web刮板问题

问题描述

1 个解决方案

解决方案1 0 2011-09-01 08:57:08

解决方案1
0 2011-09-01 08:57:08