如何使用 Python 从 BBC RSS 提要中提取所有文章链接？

Question

我试过这个，它似乎不起作用。 我只需要列表中的文章链接。

from urllib import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://feeds.bbci.co.uk/news/entertainment_and_arts/rss.xml")
bsObj = BeautifulSoup(html.read(),"html.parser");

for link in bsObj.find_all('a'):
    print(link.get('href'))

Answer 1

即使在通过浏览器访问时它呈现为 HTML，服务器也会将 XML 返回给 Python。 如果你print(html.read())你会看到那个 XML。

在此 XML 中， <a>标记替换为<link>标记（没有属性），因此您需要更改代码以反映：

from urllib import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://feeds.bbci.co.uk/news/entertainment_and_arts/rss.xml")
bsObj = BeautifulSoup(html.read(),"html.parser");

for link in bsObj.find_all('link'):
    print(link.text)

#  http://www.bbc.co.uk/news/
#  http://www.bbc.co.uk/news/
#  http://www.bbc.co.uk/news/entertainment-arts-41914725
#  http://www.bbc.co.uk/news/entertainment-arts-41886207
#  http://www.bbc.co.uk/news/entertainment-arts-41886475
#  ...
#  ...

Answer 2

import feedparser
url='http://feeds.bbci.co.uk/news/entertainment_and_arts/rss.xml'
data = feedparser.parse(url)
i=0
while i < len(data):
    print(data['entries'][i]["link"])
    i=i+1

如何使用 Python 从 BBC RSS 提要中提取所有文章链接？

问题描述

2 个解决方案

解决方案1
0 2017-11-08 14:06:00

解决方案2
0 2021-01-02 04:41:56

如何使用 Python 从 BBC RSS 提要中提取所有文章链接？

问题描述

2 个解决方案

解决方案1 0 2017-11-08 14:06:00

解决方案2 0 2021-01-02 04:41:56

解决方案1
0 2017-11-08 14:06:00

解决方案2
0 2021-01-02 04:41:56