我的抓取代碼沒有打印任何結果

Question

我正在嘗試為韓國新聞網站制作爬蟲。 奇怪的是我已經有工作代碼了。 以下是示例。

import requests
from bs4 import BeautifulSoup
import telegram

url = 'http://www.thelec.kr/news/articleList.html?page=1&total=3836&box_idxno=&view_type=sm'
req = requests.get(url)
html = req.text
soup = BeautifulSoup(html, 'html.parser')

search_result = soup.select_one('#user-container')
news_list = search_result.select('.article-veiw-body > .article-list > .article-list-content > .list-block > .list-titles >a')

contents = []
for news in news_list:
    link = news['href']
    title = news.text
    contents.append("http://www.thelec.kr"+link + " " + title)

contents

我只更改了 url 和標簽，如下所示：

import requests
from bs4 import BeautifulSoup
import telegram

url = 'https://news.daum.net/breakingnews/digital'
req = requests.get(url)
html = req.text
soup = BeautifulSoup(html, 'html.parser')

search_result = soup.select_one('#kakaoContent')
news_list = search_result.select('.box_etc > .cMain > .mArticle > .box_etc > .list_news2 > .cont_thumb > a')

links = []
for news in news_list:
    link = news['href']
    links.append(link)

links

突然間，結果是'[]'。 空的。 我也在另一個網站上嘗試過，但結果相同，為空。 我不明白。 兩者看起來都一樣。 為什么一種有效，另一種無效？

Answer 1

你的選擇器太窄了。 嘗試：

soup.select('#kakaoContent .box_etc .list_news2 .cont_thumb a')

Answer 2

您當前的第二個選擇器在我的頁面上不起作用。 如果您想獲得左側文章的鏈接，您需要更改您的 css 選擇器。 例如，為了更快更准確

.list_news2 .tit_thumb >  a

我的抓取代碼沒有打印任何結果

問題描述

2 個解決方案

解決方案1
0 2020-03-29 18:56:01

解決方案2
0 2020-03-29 18:57:04

我的抓取代碼沒有打印任何結果

問題描述

2 個解決方案

解決方案1 0 2020-03-29 18:56:01

解決方案2 0 2020-03-29 18:57:04

解決方案1
0 2020-03-29 18:56:01

解決方案2
0 2020-03-29 18:57:04