[英]Python 3.4 - Pandas - Help in proper arrangement of dataframe columns and deletion of invalid columns
[英]How to choose python pandas arrangement columns vs rows
我对 pandas(几个月)很陌生,我正在开始构建一个基于 pandas 数据阵列的项目。
这样的 pandas 数据数组将包含在一个表中,该表包括文本集合中存在的不同类型的单词(大约 100k 文档和大约 200 个关键字)。
例如,想象一下“汽车”和“摩托车”这个词以及编号为 doc1、doc2 等的文档。
我应该如何安排go? a) 每列的名称是文档编号和索引词“汽车”和“摩托车”或 b) 反过来; 索引是文档编号,列标题是单词?
我对 pandas 没有足够的了解,无法预见这种选择的后果。 所有代码都将基于该决定。
附带说明一下,数组不是 static,时不时会有更多文档和更多单词添加到数组中。
你会推荐什么? 甲还是乙? 为什么?
谢谢。
一般在 pandas 中,我们遵循实例是列(这里是文档编号)和特征是列(这里是词)的做法。 所以,更喜欢使用方法'b'。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.