使用python和BeautifulSoup從網頁檢索特定鏈接

Question

我一直在嘗試從頁面檢索href鏈接，並用作下一個href鏈接的變量。 但是我停留在一個地方，在那里我有多個帶有不同文件擴展名（例如zip，md5等）的href鏈接，只需要一個zip擴展名文件。 這是我嘗試實現的代碼。

import httplib2
from BeautifulSoup import BeautifulSoup, SoupStrainer
http = httplib2.Http()
status, response = http.request('http://example.com')
for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')):
    if link.has_key('href'):
       if '/abc' in link['href']:
          basename = link['href'].split("/")[11]
          print basename

        status, response = http.request('http://example.com/%basename',basename)
        for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')):
            if link.has_key('href'):
                if '/abc' in link['href']:
                    basename = link['href'].split("/")[11]
                    print basename

Answer 1

試試吧：

import os
# YOY CODE here

for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')):
    if link.has_key('href'):
        if '/abc' in link['href']:
            basename = link['href'].split("/")[11]
            # check file extension
            filename, file_extension = os.path.splitext(basename)
            print basename, file_extension
            if file_extension.lower() == 'zip':
                continue
       # YOUR LAST CODE

使用python和BeautifulSoup從網頁檢索特定鏈接

問題描述

1 個解決方案

解決方案1
0 2017-09-11 06:52:17

使用python和BeautifulSoup從網頁檢索特定鏈接

問題描述

1 個解決方案

解決方案1 0 2017-09-11 06:52:17

解決方案1
0 2017-09-11 06:52:17