簡體   English   中英

美麗的湯。 文本提取到數據框中

[英]Beautiful Soup. Text extraction into a dataframe

我正在嘗試從包含多個結構相似的錄音的單個網頁中提取信息。 信息包含在具有不同類的div標簽中(我對用戶名,主要文本和日期感興趣)。 這是我使用的代碼:

import bs4 as bs
import urllib
import pandas as pd

href = 'https://example.ru/'

sause = urllib.urlopen(href).read()
soup = bs.BeautifulSoup(sause, 'lxml')

user = pd.Series(soup.Series('div', class_='Username'))
main_text = pd.Series(soup.find_all('div', class_='MainText'))
date = pd.Series(soup.find_all('div', class_='Date'))

result = pd.DataFrame()
result = pd.concat([user, main_text, date], axis=1)

問題是我收到所有標簽的信息,而我只需要一個文本。 令人驚訝的是, .text屬性不適用於find_all方法,因此,現在我完全脫離了想法。

感謝您的任何幫助!

列表理解是一種方法,例如要獲取MainText中的所有文本,請嘗試

[elem.text for elem in soup.find_all('div', class_='MainText')]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM