如何在报纸3k中访问缓存的文章

Question

报纸是一个很棒的图书馆，可以抓取网络数据，但是我对文章缓存感到有些困惑。 它缓存文章以加快操作速度，但是如何访问这些文章？

我有这样的东西。 现在，当我使用相同的文章集两次运行此命令时，第二次获得返回类型None 。 如何访问那些以前缓存的文章进行处理？

newspaper_articles = [Article(url) for url in links]

Answer 1

看着这样的： https://github.com/codelucas/newspaper/issues/481似乎缓存方法“cache_disk”在https://github.com/codelucas/newspaper/blob/master/newspaper/utils.py可能有一个错误。 它确实确实将结果缓存到磁盘（搜索文件夹“ .newspaper_scraper”），但此后不加载它们。

一种解决方法是在构建报纸或使用Config类时将memoize_articles = False设置为。

newspaper.build(url, memoize_articles=False)

Answer 2

从源代码检查后，这取决于。

DATA_DIRECTORY = '.newspaper_scraper'

TOP_DIRECTORY = os.path.join(tempfile.gettempdir(), DATA_DIRECTORY)

因此，请在您的python解释器中运行此命令以获取缓存位置

import tempfile
tempfile.gettempdir()