繁体   English   中英

通过报纸从多个网址下载文章

[英]Downloading articles from multiple urls with newspaper

我一直在尝试从网页(在线《时代周刊》,德国报纸)中提取多篇文章,为此,我有一个要从中下载文章的网址列表,因此不需要搜寻该页面以获取网址。

用于python的报纸包在解析单个页面的内容方面做得非常出色。 在下载所有文章之前,我将需要自动更改网址。 不幸的是,我确实只有有限的编码知识,还没有找到一种方法来做到这一点。 如果有人可以帮助我,我将不胜感激。

我尝试过的一件事是:

import newspaper
from newspaper import Article

lista = ['url','url']


for list in lista:

 first_article = Article(url="%s", language='de') % list

 first_article.download()

 first_article.parse()

 print(first_article.text)

it returned the following error: unsupported operand type for %:'article' and 'str'

尽管我希望有一种更简单的方法来减少苹果和香蕉的含量,但这似乎可以完成任务。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import newspaper
from newspaper import Article

lista = ['http://www.zeit.de/1946/01/unsere-aufgabe', 'http://www.zeit.de/1946/04/amerika-baut-auf', 'http://www.zeit.de/1946/04/bedingung', 'http://www.zeit.de/1946/04/bodenrecht']

apple = 0
banana = lista[apple]


while apple <4 :

 first_article = Article(url= banana , language='de') 

 first_article.download()

 first_article.parse()

 print(first_article.text).encode('cp850', errors='replace')

 apple += 1
 banana = lista[apple]

你有例外

它返回以下错误:%:'article'和'str'不支持的操作数类型

因为您正在填充错误的变量,并且在第9行上应该具有:

first_article = Article(url="%s" % list, language='de')

这是完整的代码:

import newspaper
from newspaper import Article

lista = ['url','url']


for list in lista:

   first_article = Article(url="%s" % list, language='de')

   first_article.download()

   first_article.parse()

   print(first_article.text)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM