BeautifulSoup網站抓取-html解析

Question

我正在嘗試使用beautifulsoup4從網站上抓取數據，並且僅檢索要放入Excel文檔中的html標記之間的信息，目前我只能從頁面中獲取整個html數據。

import sys
import urllib3
import xlsxwriter
import lxml

page = requests.get('genericurlhere.com')
soup = BeautifulSoup(page.text, 'html.parser')

f = csv.writer(open('web_scrape.csv', 'w'))
f.writerow(['Item', 'Description'])


heading = soup.find_all("h4", class_="list-group-item-heading")
print(heading)
print('-------------------')
desc = soup.find_all("p", class_='list-group-item-text')
print(desc)

Answer 1

嘗試使用text ：

desc = soup.find_all("p", class_='list-group-item-text')
desc = [e.text for e in desc] # only text within tags from the html elements.
print(desc)

請注意，您還可以使用[]獲取html標簽的屬性，例如： each['id']

BeautifulSoup網站抓取-html解析

問題描述

1 個解決方案

解決方案1
0 已采納 2018-10-20 23:01:06

BeautifulSoup網站抓取-html解析

問題描述

1 個解決方案

解決方案1 0 已采納 2018-10-20 23:01:06

解決方案1
0 已采納 2018-10-20 23:01:06