繁体   English   中英

Pandas read_csv 错误标记来自古腾堡项目的文本

[英]Pandas read_csv error tokenizing text from Gutenberg project

我正在尝试使用古腾堡计划中的一本书创建 Python wordcloud。

如果我选择儒勒·凡尔纳 (Jule Verne) 的书《地心之旅》( A Journey to the Center of the Earth)并下载纯文本 UTF-8 文件,当我使用 read_csv 时,会收到来自 Pandas 的错误。

这是我正在使用的代码:

from wordcloud import WordCloud, STOPWORDS 
import matplotlib.pyplot as plt 
import pandas as pd 

df = pd.read_csv('pg18857.txt',delimiter=' ')

我收到以下错误消息:

pandas.errors.ParserError:标记数据时出错。 C 错误:第 176 行预期有 14 个字段,看到 15 个

我在 pd.read_csv 中尝试了几个选项,但我一直无法解析文本。

Pandas 是为结构化数据而设计的。 这意味着组织成行和列的东西,如电子表格或矩阵。 它会尝试一个文本文件,但松散的文本对于 Pandas 来说太杂乱无章了。

您可能想要做的是将其拆分为一个句子列表,然后将该列表输入到 Pandas 中。

这是一个简单的例子:

with open('pg18857.txt') as f:
    content = f.readlines()
# Remove whitespace characters like `\n` at the end of each line
content = [x.strip() for x in content] 
df = pd.DataFrame(content)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM