保存文件.txt中的BeautifulSoup错误

Question

from bs4 import BeautifulSoup
import requests
import os


url = "http://nos.nl/artikel/2093082-steeds-meer-nekklachten-bij-kinderen-door-gebruik-tablets.html"
r  = requests.get(url)
soup = BeautifulSoup(r.content.decode('utf-8', 'ignore'))
data = soup.find_all("article", {"class": "article"})

with open("data1.txt", "wb") as file:
   content=‘utf-8’
for item in data:
    content+='''{}\n{}\n\n{}\n{}'''.format( item.contents[0].find_all("time", {"datetime": "2016-03-16T09:50:30+0100"})[0].text,
                                            item.contents[0].find_all("a", {"class": "link-grey"})[0].text,
                                            item.contents[0].find_all("img", {"class": "media-full"})[0],
                                            item.contents[1].find_all("div", {"class": "article_textwrap"})[0].text,
                                            )
with open("data1.txt".format(file_name), "wb") as file:
    file.write(content)

Recently solved a utf/Unicode problem but now it isn't saving it as a .txt file nor saving it at all. 最近解决了utf / Unicode问题，但现在它既不保存为.txt文件也不保存。 What do I need to do? 我需要做什么？

Answer 1

If you want to write the data as UTF-8 to the file try codecs.open like: 如果你想把数据写成UTF-8到文件，请尝试codecs.open如：

from bs4 import BeautifulSoup
import requests
import os
import codecs


url = "http://nos.nl/artikel/2093082-steeds-meer-nekklachten-bij-kinderen-door-gebruik-tablets.html"
r  = requests.get(url)
soup = BeautifulSoup(r.content)
data = soup.find_all("article", {"class": "article"})

with codecs.open("data1.txt", "wb", "utf-8") as filen:
    for item in data:
        filen.write(item.contents[0].find_all("time", {"datetime": "2016-03-16T09:50:30+0100"})[0].get_text())
        filen.write('\n')
        filen.write(item.contents[0].find_all("a", {"class": "link-grey"})[0].get_text())
        filen.write('\n\n')
        filen.write(item.contents[0].find_all("img", {"class": "media-full"})[0].get_text())
        filen.write('\n')
        filen.write(item.contents[1].find_all("div", {"class": "article_textwrap"})[0].get_text())

I'm unsure about filen.write(item.contents[0].find_all("img", {"class": "media-full"})[0]) because that returned a Tag instance for me. 我不确定filen.write(item.contents[0].find_all("img", {"class": "media-full"})[0])因为这为我返回了Tag实例。

保存文件.txt中的BeautifulSoup错误

问题描述

1 个解决方案

解决方案1
0 2016-03-16 20:04:33

保存文件.txt中的BeautifulSoup错误

问题描述

1 个解决方案

解决方案1 0 2016-03-16 20:04:33

解决方案1
0 2016-03-16 20:04:33