Newspaper3k从archive.org waybackmachine页面返回0篇文章，而实时页面按预期工作

Question

尝试在archive.org的已归档页面URL上使用python库报纸3时，它无法获取任何文章。 但是，在同一个实时页面url上使用它时，效果很好。 请看下面：

import newspaper

len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111

len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0

即使使用返回原始已修改页面的特殊id hack也无效：

len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
    >>> 0

任何帮助将不胜感激，谢谢！

Answer 1

我发现没有迹象表明该库旨在与archive.org一起使用，或与archive.org一起使用。

[1] [2]的两个来源列表均未提及archive.org或web.archive.org 。

我下载了整个存储库以搜索源代码，并且其中也没有提及任何一个Internet存档域。

根据我在该文件上看到的内容， articles属性基于RSS / ATOM提要。 我认为Internet Archive不会对它们进行归档，即使这样，因为它们会链接回网站的实时版本，因此需要对库本身进行一些更改才能使其与Internet Archive一起使用。

您已经打开了一个问题，在其中指定了它根本不起作用（即使是单篇文章也可能是其他问题，例如在用于确定包含该文章的节点的节点评分算法中）如果您不想深入研究库源代码并自己修复它，那么您所能做的就是等待。

Newspaper3k从archive.org waybackmachine页面返回0篇文章，而实时页面按预期工作

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-12-20 04:49:10

Newspaper3k从archive.org waybackmachine页面返回0篇文章，而实时页面按预期工作

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-12-20 04:49:10

解决方案1
1 已采纳 2017-12-20 04:49:10