美麗的湯。文本提取到數據框中

Question

我正在嘗試從包含多個結構相似的錄音的單個網頁中提取信息。 信息包含在具有不同類的div標簽中（我對用戶名，主要文本和日期感興趣）。 這是我使用的代碼：

import bs4 as bs
import urllib
import pandas as pd

href = 'https://example.ru/'

sause = urllib.urlopen(href).read()
soup = bs.BeautifulSoup(sause, 'lxml')

user = pd.Series(soup.Series('div', class_='Username'))
main_text = pd.Series(soup.find_all('div', class_='MainText'))
date = pd.Series(soup.find_all('div', class_='Date'))

result = pd.DataFrame()
result = pd.concat([user, main_text, date], axis=1)

問題是我收到所有標簽的信息，而我只需要一個文本。 令人驚訝的是， .text屬性不適用於find_all方法，因此，現在我完全脫離了想法。

感謝您的任何幫助！

Answer 1

列表理解是一種方法，例如要獲取MainText中的所有文本，請嘗試

[elem.text for elem in soup.find_all('div', class_='MainText')]

美麗的湯。文本提取到數據框中

問題描述

1 個解決方案

解決方案1
0 已采納 2018-04-16 22:15:38

美麗的湯。 文本提取到數據框中

問題描述

1 個解決方案

解決方案1 0 已采納 2018-04-16 22:15:38

美麗的湯。文本提取到數據框中

解決方案1
0 已采納 2018-04-16 22:15:38