Beautiful Soup 數據摘錄

Question

有一個 local.html 我從中提取點數據，用 BeautifulSoup 解析但我不知道如何提取div內的日期，解析數組如下：

<div class="_a6-p"><div><div><a href="https://www.instagram.com/chuckbasspics" target="_blank">chuckbasspics</a></div><div>Jan 7, 2013, 5:41 AM</div></div></div><div class="_3-94 _a6-o"></div></div><div class="pam _3-95 _2ph- _a6-g uiBoxWhite noborder"><div class="_a6-p"><div><div>

知道怎么做嗎？

我已經使用以下代碼提取了用戶和 url (href)：

fl_html = open('followers.html', "r")
index = fl_html.read()
soup = BeautifulSoup(index, 'lxml')

usernames = soup.find_all('a', href=True)


for i in usernames:
    users.append(i.get_text(strip=True))
    url_follower.append(i['href'])

Answer 1

您可以使用bs4 API 或 CSS 選擇器：

from bs4 import BeautifulSoup

html_doc = """<div class="_a6-p"><div><div><a href="https://www.instagram.com/chuckbasspics" target="_blank">chuckbasspics</a></div><div>Jan 7, 2013, 5:41 AM</div></div></div><div class="_3-94 _a6-o"></div></div><div class="pam _3-95 _2ph- _a6-g uiBoxWhite noborder"><div class="_a6-p"><div><div>"""

soup = BeautifulSoup(html_doc, "html.parser")

使用`.get_text()`和`separator=`提取日期

您可以使用自定義分隔符從 HTML 片段中獲取所有文本，然后是.split ：

t = soup.get_text(strip=True, separator="|").split("|")
print(t[1])

印刷：

Jan 7, 2013, 5:41 AM

CSS 選擇器

查找<div>的下一個包含<a>的兄弟：

t = soup.select_one("div:has(a) + div")
print(t.text)

打印：

Jan 7, 2013, 5:41 AM

使用`bs4` API

時間必須包含PM或AM ，因此 select <div>包含此字符串：

t = soup.find("div", text=lambda t: t and (" AM" in t or " PM" in t))
print(t.text)

印刷：

Jan 7, 2013, 5:41 AM

Beautiful Soup 數據摘錄

問題描述

1 個解決方案

解決方案1
0 已采納 2022-11-21 01:31:12

使用`.get_text()`和`separator=`提取日期

CSS 選擇器

使用`bs4` API

Beautiful Soup 數據摘錄

問題描述

1 個解決方案

解決方案1 0 已采納 2022-11-21 01:31:12

使用.get_text()和separator=提取日期

CSS 選擇器

使用bs4 API

解決方案1
0 已采納 2022-11-21 01:31:12

使用`.get_text()`和`separator=`提取日期

使用`bs4` API