[英]BeautifulSoup website scraping - html parsing
我正在嘗試使用beautifulsoup4從網站上抓取數據,並且僅檢索要放入Excel文檔中的html標記之間的信息,目前我只能從頁面中獲取整個html數據。
import sys
import urllib3
import xlsxwriter
import lxml
page = requests.get('genericurlhere.com')
soup = BeautifulSoup(page.text, 'html.parser')
f = csv.writer(open('web_scrape.csv', 'w'))
f.writerow(['Item', 'Description'])
heading = soup.find_all("h4", class_="list-group-item-heading")
print(heading)
print('-------------------')
desc = soup.find_all("p", class_='list-group-item-text')
print(desc)
嘗試使用text
:
desc = soup.find_all("p", class_='list-group-item-text')
desc = [e.text for e in desc] # only text within tags from the html elements.
print(desc)
請注意,您還可以使用[]
獲取html標簽的屬性,例如: each['id']
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.