如何使用 BeautifulSoup 解析特定的 HTML 標簽？

Question

我正在嘗試抓取這個網站： https://datausa.io/profile/university/cuny-city-college/

我的代碼只檢索第一個匹配的 div class 標簽，這是學費，但我只想檢索食宿費用。 如何解析特定標簽？

import requests

url = requests.get('https://datausa.io/profile/university/cuny-city-college/')
soup = BeautifulSoup(url.text, 'html.parser')

rb = soup.find('div',class_='stat-value')

print(rb.prettify)

Answer 1

您可以在state-titel上使用find方法並在其中添加特定文本以便找到該標簽，我們必須從中提取先前的標簽，因此使用previous的方法！

import requests

url = requests.get('https://datausa.io/profile/university/cuny-city-college/')
soup = BeautifulSoup(url.text, 'html.parser')

rb = soup.find('div',class_='stat-title',text="Room and Board").find_previous()
print(rb.get_text())

Output：

$15,406

Answer 2

您可以使用:has 、 :-soup-contains和相鄰的同級組合符 (+) 來指定stat-value以及包含文本“Room and Board”的緊鄰stat-title

import requests
from bs4 import BeautifulSoup as bs

soup = bs(requests.get('https://datausa.io/profile/university/cuny-city-college/').text)
print(soup.select_one('.stat-value:has(+ .stat-title:-soup-contains("Room and Board"))').text)

如何使用 BeautifulSoup 解析特定的 HTML 標簽？

問題描述

2 個解決方案

解決方案1
1 2021-12-17 06:45:20

解決方案2
0 2021-12-17 08:10:46

如何使用 BeautifulSoup 解析特定的 HTML 標簽？

問題描述

2 個解決方案

解決方案1 1 2021-12-17 06:45:20

解決方案2 0 2021-12-17 08:10:46

解決方案1
1 2021-12-17 06:45:20

解決方案2
0 2021-12-17 08:10:46