繁体   English   中英

Newspaper3k从archive.org waybackmachine页面返回0篇文章,而实时页面按预期工作

[英]Newspaper3k returns 0 articles from archive.org waybackmachine pages whereas the live page works as expected

尝试在archive.org的已归档页面URL上使用python库报纸3时,它无法获取任何文章。 但是,在同一个实时页面url上使用它时,效果很好。 请看下面:

import newspaper

len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111

len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0

即使使用返回原始已修改页面的特殊id hack也无效:

len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
    >>> 0

任何帮助将不胜感激,谢谢!

我发现没有迹象表明该库旨在与archive.org一起使用,或与archive.org一起使用。

[1] [2]的两个来源列表均未提及archive.orgweb.archive.org

我下载了整个存储库以搜索源代码,并且其中也没有提及任何一个Internet存档域。

根据我在该文件上看到的内容, articles属性基于RSS / ATOM提要。 我认为Internet Archive不会对它们进行归档,即使这样,因为它们会链接回网站的实时版本,因此需要对库本身进行一些更改才能使其与Internet Archive一起使用。

您已经打开了一个问题 ,在其中指定了它根本不起作用(即使是单篇文章也可能是其他问题,例如在用于确定包含该文章的节点的节点评分算法中)如果您不想深入研究库源代码并自己修复它,那么您所能做的就是等待。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM