[英]Downloading articles from multiple urls with newspaper
我一直在嘗試從網頁(在線《時代周刊》,德國報紙)中提取多篇文章,為此,我有一個要從中下載文章的網址列表,因此不需要搜尋該頁面以獲取網址。
用於python的報紙包在解析單個頁面的內容方面做得非常出色。 在下載所有文章之前,我將需要自動更改網址。 不幸的是,我確實只有有限的編碼知識,還沒有找到一種方法來做到這一點。 如果有人可以幫助我,我將不勝感激。
我嘗試過的一件事是:
import newspaper
from newspaper import Article
lista = ['url','url']
for list in lista:
first_article = Article(url="%s", language='de') % list
first_article.download()
first_article.parse()
print(first_article.text)
it returned the following error: unsupported operand type for %:'article' and 'str'
盡管我希望有一種更簡單的方法來減少蘋果和香蕉的含量,但這似乎可以完成任務。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import newspaper
from newspaper import Article
lista = ['http://www.zeit.de/1946/01/unsere-aufgabe', 'http://www.zeit.de/1946/04/amerika-baut-auf', 'http://www.zeit.de/1946/04/bedingung', 'http://www.zeit.de/1946/04/bodenrecht']
apple = 0
banana = lista[apple]
while apple <4 :
first_article = Article(url= banana , language='de')
first_article.download()
first_article.parse()
print(first_article.text).encode('cp850', errors='replace')
apple += 1
banana = lista[apple]
你有例外
它返回以下錯誤:%:'article'和'str'不支持的操作數類型
因為您正在填充錯誤的變量,並且在第9行上應該具有:
first_article = Article(url="%s" % list, language='de')
這是完整的代碼:
import newspaper
from newspaper import Article
lista = ['url','url']
for list in lista:
first_article = Article(url="%s" % list, language='de')
first_article.download()
first_article.parse()
print(first_article.text)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.