[英]Newspaper3k returns 0 articles from archive.org waybackmachine pages whereas the live page works as expected
尝试在archive.org的已归档页面URL上使用python库报纸3时,它无法获取任何文章。 但是,在同一个实时页面url上使用它时,效果很好。 请看下面:
import newspaper
len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111
len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0
即使使用返回原始已修改页面的特殊id
hack也无效:
len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
>>> 0
任何帮助将不胜感激,谢谢!
我发现没有迹象表明该库旨在与archive.org一起使用,或与archive.org一起使用。
[1] [2]的两个来源列表均未提及archive.org
或web.archive.org
。
我下载了整个存储库以搜索源代码,并且其中也没有提及任何一个Internet存档域。
根据我在该文件上看到的内容, articles
属性基于RSS / ATOM提要。 我认为Internet Archive不会对它们进行归档,即使这样,因为它们会链接回网站的实时版本,因此需要对库本身进行一些更改才能使其与Internet Archive一起使用。
您已经打开了一个问题 ,在其中指定了它根本不起作用(即使是单篇文章也可能是其他问题,例如在用于确定包含该文章的节点的节点评分算法中)如果您不想深入研究库源代码并自己修复它,那么您所能做的就是等待。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.