报纸0.0.6用于Python中的Web抓取

Question

我使用Python Newspaper lib开发了一个Web抓取脚本。 我需要提取以下内容 - URL，标题，摘要，作者和出版日期。 除了出版日期之外，我得到了所有。 我的问题是，是否有人使用报纸库来捕捉出版日期？

hn.write("***********Article no" + str(x+1) + "************\r\n");
hn.write("URL: "+ article.url+ "\r\n");
hn.write("Title: "+ article.title + "\r\n");
hn.write( "Authors: "+' '.join(map(str, article.authors)));
hn.write("\r\n");
hn.write("Summary: "+ article.summary+ "\r\n);
hn.write("Key words: ");
hn.write(str(article.keywords).strip('[]'));

有没有办法使用Newspaper lib获取发布日期？

谢谢

穆克什

Answer 1

newspaper/article.py有第195行

# TODO self.publish_date = self.config.publishDateExtractor.extract(self.doc)

它似乎尚未准备好。 但您可以尝试取消注释此代码。

资料来源： https ： //github.com/codelucas/newspaper/blob/master/newspaper/article.py#L195

报纸0.0.6用于Python中的Web抓取

问题描述

1 个解决方案

解决方案1
3 2014-02-27 06:20:38

报纸0.0.6用于Python中的Web抓取

问题描述

1 个解决方案

解决方案1 3 2014-02-27 06:20:38

解决方案1
3 2014-02-27 06:20:38