繁体   English   中英

如何使用不均匀的分隔符将一列拆分为多列

[英]How to split one column into multiple with uneven delimiters

我在学校、城市、state 的数据集中有一列。 所有这些都用逗号分隔。 我试图将它们分成三个新列进行分析。 每个新列名为学校、城市、state。

原始数据集。 他们不让我把照片放在这里,所以这里有一个链接。

我遇到的问题是,有时在学校名称中使用逗号,这会使事情变得混乱并强制创建一个新列,而且通常不起作用。

这是我用来拆分列的代码:

undergrad_colleges_supplying_50_med_students_test = undergrad_colleges_supplying_50_med_students.join(undergrad_colleges_supplying_50_med_students['undergraduate_institution'].str.split(',', expand=True).fillna(np.nan))

这就是输出的内容。 它给了我多个新的列,我不知道为什么,它也被一些学校名称中的逗号分隔。

处理 Dataframe 图像。 应该只有三列,但我最终得到了 6 列,而各州是城市没有排队

我希望我清楚地解释了这一点。 任何帮助是极大的赞赏!

如果您知道总会有三个项目,则可以设置n参数。

undergrad_colleges_supplying_50_med_students.join(
    undergrad_colleges_supplying_50_med_students['undergraduate_institution']
    .str.split(',', n=3, expand=True)
    .fillna(np.nan)
)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM