[英]Beautiful Soup. Text extraction into a dataframe
我正在嘗試從包含多個結構相似的錄音的單個網頁中提取信息。 信息包含在具有不同類的div標簽中(我對用戶名,主要文本和日期感興趣)。 這是我使用的代碼:
import bs4 as bs
import urllib
import pandas as pd
href = 'https://example.ru/'
sause = urllib.urlopen(href).read()
soup = bs.BeautifulSoup(sause, 'lxml')
user = pd.Series(soup.Series('div', class_='Username'))
main_text = pd.Series(soup.find_all('div', class_='MainText'))
date = pd.Series(soup.find_all('div', class_='Date'))
result = pd.DataFrame()
result = pd.concat([user, main_text, date], axis=1)
問題是我收到所有標簽的信息,而我只需要一個文本。 令人驚訝的是, .text屬性不適用於find_all方法,因此,現在我完全脫離了想法。
感謝您的任何幫助!
列表理解是一種方法,例如要獲取MainText中的所有文本,請嘗試
[elem.text for elem in soup.find_all('div', class_='MainText')]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.