[英]Newspaper3k returns 0 articles from archive.org waybackmachine pages whereas the live page works as expected
嘗試在archive.org的已歸檔頁面URL上使用python庫報紙3時,它無法獲取任何文章。 但是,在同一個實時頁面url上使用它時,效果很好。 請看下面:
import newspaper
len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111
len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0
即使使用返回原始已修改頁面的特殊id
hack也無效:
len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
>>> 0
任何幫助將不勝感激,謝謝!
我發現沒有跡象表明該庫旨在與archive.org一起使用,或與archive.org一起使用。
[1] [2]的兩個來源列表均未提及archive.org
或web.archive.org
。
我下載了整個存儲庫以搜索源代碼,並且其中也沒有提及任何一個Internet存檔域。
根據我在該文件上看到的內容, articles
屬性基於RSS / ATOM提要。 我認為Internet Archive不會對它們進行歸檔,即使這樣,因為它們會鏈接回網站的實時版本,因此需要對庫本身進行一些更改才能使其與Internet Archive一起使用。
您已經打開了一個問題 ,在其中指定了它根本不起作用(即使是單篇文章也可能是其他問題,例如在用於確定包含該文章的節點的節點評分算法中)如果您不想深入研究庫源代碼並自己修復它,那么您所能做的就是等待。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.