[英]Shortcomings of Newspaper3k: How to Scrape ONLY Article HTML? Python
[英]How to stop python newspaper3k from returning null values?
我最近一直在使用python報紙庫,並且正在嘗試創建一個系統來搜索BBC新聞網站上的所有文章,並將每個標題插入WAMP服務器中PC上的MySQL數據庫中。 我的問題是,以下代碼同時返回了實際的文章標題和空值,這顯然是我在數據庫中不想要的。 有什么辦法可以阻止這種情況的發生?
謝謝 :)
import newspaper
import mysql.connector
mydb = mysql.connector.connect(
host="localhost",
user="root",
passwd="",
database="headlines"
)
mycursor = mydb.cursor()
sql = "insert into headlines (headline) values (%s)"
search = newspaper.build('https://www.bbc.co.uk/news')
for article in search.articles:
mycursor.execute(sql, (article.title,))
mydb.commit()
我假設您數據庫中的空條目顯示為“ None
來自Python的條目已上傳到您的MySQL服務器。 在這種情況下,您可以簡單地檢查文章是否為None
,然后跳過將其上傳到數據庫的操作。
for article in search.articles:
if article is None:
continue
mycursor.execute(sql, (article.title,))
mydb.commit()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.