Pandas read_csv 错误标记来自古腾堡项目的文本

Question

我正在尝试使用古腾堡计划中的一本书创建 Python wordcloud。

如果我选择儒勒·凡尔纳 (Jule Verne) 的书《地心之旅》( A Journey to the Center of the Earth)并下载纯文本 UTF-8 文件，当我使用 read_csv 时，会收到来自 Pandas 的错误。

这是我正在使用的代码：

from wordcloud import WordCloud, STOPWORDS 
import matplotlib.pyplot as plt 
import pandas as pd 

df = pd.read_csv('pg18857.txt',delimiter=' ')

我收到以下错误消息：

pandas.errors.ParserError：标记数据时出错。 C 错误：第 176 行预期有 14 个字段，看到 15 个

我在 pd.read_csv 中尝试了几个选项，但我一直无法解析文本。

Answer 1

Pandas 是为结构化数据而设计的。 这意味着组织成行和列的东西，如电子表格或矩阵。 它会尝试一个文本文件，但松散的文本对于 Pandas 来说太杂乱无章了。

您可能想要做的是将其拆分为一个句子列表，然后将该列表输入到 Pandas 中。

这是一个简单的例子：

with open('pg18857.txt') as f:
    content = f.readlines()
# Remove whitespace characters like `\n` at the end of each line
content = [x.strip() for x in content] 
df = pd.DataFrame(content)

Pandas read_csv 错误标记来自古腾堡项目的文本

问题描述

1 个解决方案

解决方案1
1 已采纳 2019-02-18 11:27:23

Pandas read_csv 错误标记来自古腾堡项目的文本

问题描述

1 个解决方案

解决方案1 1 已采纳 2019-02-18 11:27:23

解决方案1
1 已采纳 2019-02-18 11:27:23