[英]Pandas read_csv error tokenizing text from Gutenberg project
我正在尝试使用古腾堡计划中的一本书创建 Python wordcloud。
如果我选择儒勒·凡尔纳 (Jule Verne) 的书《地心之旅》( A Journey to the Center of the Earth)并下载纯文本 UTF-8 文件,当我使用 read_csv 时,会收到来自 Pandas 的错误。
这是我正在使用的代码:
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('pg18857.txt',delimiter=' ')
我收到以下错误消息:
pandas.errors.ParserError:标记数据时出错。 C 错误:第 176 行预期有 14 个字段,看到 15 个
我在 pd.read_csv 中尝试了几个选项,但我一直无法解析文本。
Pandas 是为结构化数据而设计的。 这意味着组织成行和列的东西,如电子表格或矩阵。 它会尝试一个文本文件,但松散的文本对于 Pandas 来说太杂乱无章了。
您可能想要做的是将其拆分为一个句子列表,然后将该列表输入到 Pandas 中。
这是一个简单的例子:
with open('pg18857.txt') as f:
content = f.readlines()
# Remove whitespace characters like `\n` at the end of each line
content = [x.strip() for x in content]
df = pd.DataFrame(content)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.