Newspaper3k從archive.org waybackmachine頁面返回0篇文章，而實時頁面按預期工作

Question

嘗試在archive.org的已歸檔頁面URL上使用python庫報紙3時，它無法獲取任何文章。 但是，在同一個實時頁面url上使用它時，效果很好。 請看下面：

import newspaper

len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111

len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0

即使使用返回原始已修改頁面的特殊id hack也無效：

len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
    >>> 0

任何幫助將不勝感激，謝謝！

Answer 1

我發現沒有跡象表明該庫旨在與archive.org一起使用，或與archive.org一起使用。

[1] [2]的兩個來源列表均未提及archive.org或web.archive.org 。

我下載了整個存儲庫以搜索源代碼，並且其中也沒有提及任何一個Internet存檔域。

根據我在該文件上看到的內容， articles屬性基於RSS / ATOM提要。 我認為Internet Archive不會對它們進行歸檔，即使這樣，因為它們會鏈接回網站的實時版本，因此需要對庫本身進行一些更改才能使其與Internet Archive一起使用。

您已經打開了一個問題，在其中指定了它根本不起作用（即使是單篇文章也可能是其他問題，例如在用於確定包含該文章的節點的節點評分算法中）如果您不想深入研究庫源代碼並自己修復它，那么您所能做的就是等待。

Newspaper3k從archive.org waybackmachine頁面返回0篇文章，而實時頁面按預期工作

問題描述

1 個解決方案

解決方案1
1 已采納 2017-12-20 04:49:10

Newspaper3k從archive.org waybackmachine頁面返回0篇文章，而實時頁面按預期工作

問題描述

1 個解決方案

解決方案1 1 已采納 2017-12-20 04:49:10

解決方案1
1 已采納 2017-12-20 04:49:10