繁体   English   中英

将CSV读取到熊猫后,MultiLabelBinarizer()的格式问题

Formatting issues with MultiLabelBinarizer() after reading CSV into Pandas

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我想使用MultiLabelBinarizer()准备包含适用于文本的标签的列。 例如,根据title预测电影可能属于哪种流派。

当值预先定义为DataFrame中的列表时,MultiLabelBinarizer()的效果很好:

import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer

df = pd.DataFrame({"Text": ["Blah blah", "Blah blah blah"],
              "Tag": [["Hi", "Hello"], ["Hey"]]})

mlb = MultiLabelBinarizer()
print(mlb.fit_transform(df["Tag"]))
print(mlb.classes_)

array([[1, 0, 1],
       [0, 1, 0]])

array(['Hello', 'Hey', 'Hi'], dtype=object)

但是,当我将CSV或Excel文件读入Pandas时,此方法失败。 例如,如果我制作具有相同结构的简单CSV:

CSV范例

并将其读入熊猫+使用MultiLabelBinarizer():

df = pd.read_csv(filepath)

mlb = MultiLabelBinarizer()
print(mlb.fit_transform(df["Tag"]))
print(mlb.classes_)

它将每个字符视为一个单独的类,并且不再输出为array():

[[1 1 1 1 1 1 1 1 0]
 [0 1 0 1 1 0 0 0 1]]

[' ' '"' ',' 'H' 'e' 'i' 'l' 'o' 'y']

鉴于此限制,我如何从CSV或Excel文件中读取并保留MultiLabelBinarizer()的功能?

1 个回复

添加.str.split(“,”)

mlb.fit_transform(df["Tag"].str.split(","))
1 将csv读取到保留原样的熊猫

我正在尝试读取一个csv并将其放入数据框,但我想保留列的值。 例如。 我的第一列值像001234 , 003462在CSV文件,但数据帧将其解释为1234 , 3462 ,等我如何留住“00”在前面? 请帮忙! 谢谢。 ...

2 将csv文件读取到熊猫失败

我有一个通过将Tableau表导出到csv生成的csv文件,但是我无法在Python中打开它。 我尝试使用pd.read_csv,但是失败了。 这适用于读取文件,但是结果是多行,每行一个字符,并且在帧的开头有一些奇怪的字符。 等等。 当我尝试在Excel中导入文件时,我必 ...

4 在熊猫DataFrame中读取到Stocker的问题

我最近开始从事一个使用Stocker(一个从fbprophet运行的API来使用库存数据进行机器学习的API)的项目。 我喜欢API的简单性,但是它有一个致命的缺陷。 它使用quandl接收其库存数据。 Quandl在2018年某个时候停止更新其数据,并且当您使用旧数据时无法运行准确的数据 ...

5 从 CSV 文件读取到 postgresql 的问题

当我想将数据从 csv 文件复制到 postgresql 数据库时遇到问题。 我按照以下步骤操作: https : //github.com/gregrahn/join-order-benchmark一切正常,直到我应该从 csv 文件中读取数据。 我写了以下命令: 我得到了同样的错误: 并 ...

6 熊猫以csv格式读取Excel工作表

我正在尝试将一张excel文档另存为csv文件,并使用pandas在colab中运行它。 我将工作表另存为csv并将其上传到github ....但是运行此代码时出现错误。 错误:utf-8'编解码器无法解码位置0的字节0xe0:数据意外结束 ...

7 用熊猫读取格式错误的“ csv”文件

我有一个格式不正确的“ csv”文件: 我有一种使用pandas pd.read_*工具箱的方法来获取以下pd.DataFrame : ? PS我知道如何import csv 感谢您的想法和BR,Lex 编辑 这是真实文件中的一个玩具示例(我必须再次对其进 ...

8 如何读取以“;”分隔的熊猫格式的csv文件?

我开始在python 3.4中使用熊猫工作了几天。 我选择处理Book-Crossing数据集 。 图书信息表如下: 图书评分表如下: 我想从图书信息表中获取“ ISBN”,“书名”,并将其与同时与“ ISBN”匹配的书评表合并,然后将结果写入另一个csv文件中。 我使用 ...

9 熊猫,N行后如何停止读取csv?

我有一些要读取的csv文件,无论出于何种原因,其格式如下 这里的问题是D列在其他列的下面,这使Pandas非常不高兴,一旦它完成了A列的读取,并直接进入D的列名字符串。 我当然可以像 基本上, nrows = length_of_A_B_C 。 问题是,我不知道D之前的行 ...

10 如何从csv读取到ListMap

我被分配了读取csv并创建ListMap变量的任务。 使用此特定类的原因是,对于其他一些用例,他们已经在使用ListMap作为输入参数的许多方法,并且他们还想要一个。 到目前为止,我所做的是:从csv中读取并创建rdd。 csv的格式为 在这个rdd中,我有字符串元组。 我现 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM