如何使用 BeautifulSoup 抓取網站

Question

我試圖從網站上抓取一個列表，但我想單獨拉取的每個經銷商都沒有標簽。 有什么辦法可以拉動它們，以便它們單獨拉動而不是作為列表拉動？

這是我試圖從中提取的網站：

http://www.autodealerdirectory.us/ca_s_madd.html

Answer 1

import requests
from bs4 import BeautifulSoup

url = 'http://www.autodealerdirectory.us/ca_s_madd.html'

r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

dealers = []

for tag in soup.select('#bodyText hr')[1:]:
    s = ''
    s += tag.next_sibling
    s += tag.next_sibling.next_sibling.next_sibling
    s += tag.next_sibling.next_sibling.next_sibling.next_sibling.next_sibling
    s += tag.next_sibling.next_sibling.next_sibling.next_sibling.next_sibling.next_sibling.next_sibling
    dealers.append(s)

for dealer in dealers:
    print(dealer.strip())
    print('-----------------------------------------')

這將完成工作。 每個經銷商的信息是在列表中dealers 。 你只需要清理字符串

如何使用 BeautifulSoup 抓取網站

問題描述

1 個解決方案

解決方案1
1 已采納 2018-09-29 23:57:30

如何使用 BeautifulSoup 抓取網站

問題描述

1 個解決方案

解決方案1 1 已采納 2018-09-29 23:57:30

解決方案1
1 已采納 2018-09-29 23:57:30