[英]Newspaper 0.0.6 for web scraping in Python
我使用Python Newspaper lib開發了一個Web抓取腳本。 我需要提取以下內容 - URL,標題,摘要,作者和出版日期。 除了出版日期之外,我得到了所有。 我的問題是,是否有人使用報紙庫來捕捉出版日期?
hn.write("***********Article no" + str(x+1) + "************\r\n");
hn.write("URL: "+ article.url+ "\r\n");
hn.write("Title: "+ article.title + "\r\n");
hn.write( "Authors: "+' '.join(map(str, article.authors)));
hn.write("\r\n");
hn.write("Summary: "+ article.summary+ "\r\n);
hn.write("Key words: ");
hn.write(str(article.keywords).strip('[]'));
有沒有辦法使用Newspaper lib獲取發布日期?
謝謝
穆克什
newspaper/article.py
有第195行
# TODO self.publish_date = self.config.publishDateExtractor.extract(self.doc)
它似乎尚未准備好。 但您可以嘗試取消注釋此代碼。
資料來源: https : //github.com/codelucas/newspaper/blob/master/newspaper/article.py#L195
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.