簡體   English   中英

Newspaper3k從archive.org waybackmachine頁面返回0篇文章,而實時頁面按預期工作

[英]Newspaper3k returns 0 articles from archive.org waybackmachine pages whereas the live page works as expected

嘗試在archive.org的已歸檔頁面URL上使用python庫報紙3時,它無法獲取任何文章。 但是,在同一個實時頁面url上使用它時,效果很好。 請看下面:

import newspaper

len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111

len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0

即使使用返回原始已修改頁面的特殊id hack也無效:

len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
    >>> 0

任何幫助將不勝感激,謝謝!

我發現沒有跡象表明該庫旨在與archive.org一起使用,或與archive.org一起使用。

[1] [2]的兩個來源列表均未提及archive.orgweb.archive.org

我下載了整個存儲庫以搜索源代碼,並且其中也沒有提及任何一個Internet存檔域。

根據我在該文件上看到的內容, articles屬性基於RSS / ATOM提要。 我認為Internet Archive不會對它們進行歸檔,即使這樣,因為它們會鏈接回網站的實時版本,因此需要對庫本身進行一些更改才能使其與Internet Archive一起使用。

您已經打開了一個問題 ,在其中指定了它根本不起作用(即使是單篇文章也可能是其他問題,例如在用於確定包含該文章的節點的節點評分算法中)如果您不想深入研究庫源代碼並自己修復它,那么您所能做的就是等待。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM