循環URL以使用漂亮的湯蟒抓取

Question

我正在使用以下代碼來抓取網站。 我嘗試過的以下內容對於網站上的頁面效果很好。 現在，我要抓取幾個這樣的頁面，如下所示，這些頁面我正在為其循環URL。

from bs4 import BeautifulSoup
import urllib2
import csv
import re
number = 2500
for i in xrange(2500,7000):
    page = urllib2.urlopen("http://bvet.bytix.com/plus/trainer/default.aspx?id={}".format(i))
    soup = BeautifulSoup(page.read())
    for eachuniversity in soup.findAll('fieldset',{'id':'ctl00_step2'}):
        print re.sub(r'\s+',' ',','.join(eachuniversity.findAll(text=True)).encode('utf-8'))
        print '\n'
        number = number + 1

以下是沒有循環的普通代碼

from bs4 import BeautifulSoup
import urllib2
import csv
import re
page = urllib2.urlopen("http://bvet.bytix.com/plus/trainer/default.aspx?id=4591")
soup = BeautifulSoup(page.read())
for eachuniversity in soup.findAll('fieldset',{'id':'ctl00_step2'}):
    print re.sub(r'\s+',' ',''.join(eachuniversity.findAll(text=True)).encode('utf-8'))

我正在將URL中的id值從2500循環到7000。但是有很多id都沒有值。 因此，沒有這樣的頁面。 僅當存在給定id數據時，如何跳過這些頁面並刮取數據。

Answer 1

您可以嘗試捕獲結果（ https://stackoverflow.com/questions/6092992/why-is-it-easier-to-ask-forgiveness-than-permission-in-python-but-not-in-java ）：

for i in xrange(2500,7000):
    try:
        page = urllib2.urlopen("http://bvet.bytix.com/plus/trainer/default.aspx?id={}".format(i))
    except:
        continue
    else:
        soup = BeautifulSoup(page.read())
        for eachuniversity in soup.findAll('fieldset',{'id':'ctl00_step2'}):
            print re.sub(r'\s+',' ',','.join(eachuniversity.findAll(text=True)).encode('utf-8'))
            print '\n'
            number = number + 1

或使用（great）lib（例如請求）並在報廢之前進行檢查

import requests
for i in xrange(2500,7000):
    page = requests.get("http://bvet.bytix.com/plus/trainer/default.aspx?id={}".format(i))
    if not page.ok:
        continue
    soup = BeautifulSoup(requests.text)
    for eachuniversity in soup.findAll('fieldset',{'id':'ctl00_step2'}):
        print re.sub(r'\s+',' ',','.join(eachuniversity.findAll(text=True)).encode('utf-8'))
        print '\n'
        number = number + 1

基本上，您無法在調用url之前知道具有該ID的頁面是否存在。

Answer 2

嘗試在該網站上找到索引頁面，否則，在嘗試訪問URL之前您根本無法分辨

循環URL以使用漂亮的湯蟒抓取

問題描述

2 個解決方案

解決方案1
2 已采納 2013-11-12 18:24:46

解決方案2
0 2013-11-12 18:18:35

循環URL以使用漂亮的湯蟒抓取

問題描述

2 個解決方案

解決方案1 2 已采納 2013-11-12 18:24:46

解決方案2 0 2013-11-12 18:18:35

解決方案1
2 已采納 2013-11-12 18:24:46

解決方案2
0 2013-11-12 18:18:35