[英]Remove tags in Beautiful Soup
我想刪除html標記,但保留標記之間的文本並將其保留在列表中。 這是我的以下代碼:
comment_list = comment_container.findAll("div", {"class" : "comment-date"})
print(comment_list)
輸出為:
[<div class="comment-date">2018-9-11 03:58</div>,
<div class="comment-date">2018-4-4 17:10</div>,
<div class="comment-date">2018-4-26 01:06</div>,
<div class="comment-date">2018-7-19 13:48</div>,
<div class="comment-date">2018-4-12 11:39</div>,
<div class="comment-date">2019-3-14 21:12</div>,
<div class="comment-date">2019-3-4 15:43</div>,
<div class="comment-date">2019-3-12 13:20</div>,
<div class="comment-date">2019-3-10 22:32</div>,
<div class="comment-date">2019-3-8 15:22</div>]
所需輸出:
[2018-9-11 03:58, 2018-4-4 17:10, 2018-4-26 01:06,
2018-7-19 13:48, 2018-4-12 11:39, 2019-3-14 21:12,
2019-3-4 15:43, 2019-3-12 13:20, 2019-3-10 22:32, 2019-3-8 15:22]
我可以使用for循環分別提取文本。
for commentDate in comment_list:
comments = commentDate.text
print(comments)
我想使用日期進行比較(查找最早的日期),因此我覺得將日期保存到列表中將是最可管理的。
您可以像這樣使用列表理解將div
元素列表轉換為日期列表,以獲得所需的輸出:
comment_list = comment_container.findAll("div", {"class" : "comment-date"})
comment_dates = [comment.text for comment in comment_list]
print(comment_dates)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.