使用 BeautifulSoup 抓取 url

Question

您好，我是數據抓取的初學者。 在這種情況下，我想獲得一個類似“https:// . .”的網址。 但結果是鏈接變量中的列表，其中包含 web 中的所有鏈接。 這是下面的代碼；

import requests
from bs4 import BeautifulSoup
url = 'https://www.detik.com/search/searchall?query=KPK'
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
artikel = soup.findAll('div', {'class' : 'list media_rows list-berita'})
p = 1
link = []
for p in artikel:
     s = p.findAll('a', href=True)['href']
     link.append(s)

上面代碼的結果是出現錯誤，例如

TypeError                                 Traceback (most recent call last)
<ipython-input-141-469cb6eabf70> in <module>
3 link = []
4 for p in artikel:
5         s = p.findAll('a', href=True)['href']
6         link.append(s)
TypeError: list indices must be integers or slices, not str

結果是我想獲取 https:// 的所有鏈接。 . . 在 <div class = 'list media_rows list-berita' 作為列表提前謝謝。

Answer 1

代碼：

import requests
from bs4 import BeautifulSoup

url = 'https://www.detik.com/search/searchall?query=KPK'
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
articles = soup.findAll('div', {'class' : 'list media_rows list-berita'})
links = []

for article in articles:
    
    hrefs = article.find_all('a', href=True)
    for href in hrefs:
        links.append(href['href'])
        
print(links)

輸出：

['https://news.detik.com/kolom/d-5609578/bahaya-laten-narasi-kpk-sudah-mati', 'https://news.detik.com/berita/d-5609585/penyuap-nurdin-abdullah-tawarkan-proyek-sulsel-ke-pengusaha-minta-rp-1-m', 'https://news.detik.com/berita/d-5609537/7-gebrakan-ahok-yang-bikin-geger', 'https://news.detik.com/berita/d-5609423/ppp-minta-bkn-jangan-asal-sebut-twk-kpk-dokumen-rahasia', 
'https://news.detik.com/berita/d-5609382/mantan-sekjen-nasdem-gugat-pasal-suap-ke-mk-karena-dinilai-multitafsir', 'https://news.detik.com/berita/d-5609381/kpk-gali-informasi-soal-nurdin-abdullah-beli-tanah-pakai-uang-suap', 'https://news.detik.com/berita/d-5609378/hrs-bandingkan-kasus-dengan-pinangki-ary-askhara-tuntutan-ke-saya-gila', 'https://news.detik.com/detiktv/d-5609348/pimpinan-kpk-akhirnya-penuhi-panggilan-komnas-ham', 'https://news.detik.com/berita/d-5609286/wakil-ketua-kpk-nurul-ghufron-penuhi-panggilan-komnas-ham-soal-polemik-twk']

Answer 2

只有一個div具有類list media_rows list-berita 。 所以你可以使用find而不是findAll

選擇帶有類名list media_rows list-berita的div
從div使用findAll選擇所有<a> 。 這將為您提供div中所有<a>標簽的列表
遍歷上面列表中的所有<a>並提取href 。

這是一個工作代碼。

import requests
from bs4 import BeautifulSoup
url = 'https://www.detik.com/search/searchall?query=KPK'
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
artikel = soup.find('div', {'class' : 'list media_rows list-berita'})
a_hrefs = artikel.findAll('a')
link = []
for k in a_hrefs:
     link.append(k['href'])

print(link)

使用 BeautifulSoup 抓取 url

問題描述

2 個解決方案

解決方案1
1 已采納 2021-06-17 07:12:13

解決方案2
0 2021-06-17 07:14:07

使用 BeautifulSoup 抓取 url

問題描述

2 個解決方案

解決方案1 1 已采納 2021-06-17 07:12:13

解決方案2 0 2021-06-17 07:14:07

解決方案1
1 已采納 2021-06-17 07:12:13

解決方案2
0 2021-06-17 07:14:07