通過報紙從多個網址下載文章

Question

我一直在嘗試從網頁（在線《時代周刊》，德國報紙）中提取多篇文章，為此，我有一個要從中下載文章的網址列表，因此不需要搜尋該頁面以獲取網址。

用於python的報紙包在解析單個頁面的內容方面做得非常出色。 在下載所有文章之前，我將需要自動更改網址。 不幸的是，我確實只有有限的編碼知識，還沒有找到一種方法來做到這一點。 如果有人可以幫助我，我將不勝感激。

我嘗試過的一件事是：

import newspaper
from newspaper import Article

lista = ['url','url']


for list in lista:

 first_article = Article(url="%s", language='de') % list

 first_article.download()

 first_article.parse()

 print(first_article.text)

it returned the following error: unsupported operand type for %:'article' and 'str'

盡管我希望有一種更簡單的方法來減少蘋果和香蕉的含量，但這似乎可以完成任務。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import newspaper
from newspaper import Article

lista = ['http://www.zeit.de/1946/01/unsere-aufgabe', 'http://www.zeit.de/1946/04/amerika-baut-auf', 'http://www.zeit.de/1946/04/bedingung', 'http://www.zeit.de/1946/04/bodenrecht']

apple = 0
banana = lista[apple]


while apple <4 :

 first_article = Article(url= banana , language='de') 

 first_article.download()

 first_article.parse()

 print(first_article.text).encode('cp850', errors='replace')

 apple += 1
 banana = lista[apple]

Answer 1

你有例外

它返回以下錯誤：％：'article'和'str'不支持的操作數類型

因為您正在填充錯誤的變量，並且在第9行上應該具有：

first_article = Article(url="%s" % list, language='de')

這是完整的代碼：

import newspaper
from newspaper import Article

lista = ['url','url']


for list in lista:

   first_article = Article(url="%s" % list, language='de')

   first_article.download()

   first_article.parse()

   print(first_article.text)

通過報紙從多個網址下載文章

問題描述

1 個解決方案

解決方案1
0 2018-03-10 09:30:38

通過報紙從多個網址下載文章

問題描述

1 個解決方案

解決方案1 0 2018-03-10 09:30:38

解決方案1
0 2018-03-10 09:30:38