如何将 xls 中的所有字段作为字符串导入 Pandas dataframe？

Question

我正在尝试将文件从 xlsx 导入 Python Pandas dataframe。我想防止字段/列被解释为整数，从而丢失前导零或其他所需的异构格式。

因此，对于包含 100 列的 Excel 工作表，我将使用带范围 (99) 的字典理解来执行以下操作。

import pandas as pd
filename = 'C:\DemoFile.xlsx'

fields = {col: str for col in range(99)}

df = pd.read_excel(filename, sheetname=0, converters=fields)

这些导入文件确实始终具有不同数量的列，我希望以不同于一直手动更改范围的方式来处理这个问题。

对于将 Excel 文件读入 dataframe 并默认将所有字段视为字符串，是否有人有任何进一步的建议或替代方案？

非常感谢！

Answer 1

调用.read_excel()时使用 dtype dtype=str

import pandas as pd
filename = 'C:\DemoFile.xlsx'

df = pd.read_excel(filename, dtype=str)

Answer 2

尝试这个：

xl = pd.ExcelFile(r'C:\DemoFile.xlsx')
ncols = xl.book.sheet_by_index(0).ncols
df = xl.parse(0, converters={i : str for i in range(ncols)})

更新：

In [261]: type(xl)
Out[261]: pandas.io.excel.ExcelFile

In [262]: type(xl.book)
Out[262]: xlrd.book.Book

Answer 3

通常的解决方案是：

读取一行数据只是为了获取列名和列数
自动创建字典，其中每列都有一个字符串类型
使用在步骤2中创建的词典重新读取全部数据。

如何将 xls 中的所有字段作为字符串导入 Pandas dataframe？

问题描述

3 个解决方案

解决方案1
1 2022-02-28 09:32:14

解决方案2
0 已采纳 2017-01-25 23:03:00

解决方案3
-1 2017-01-25 22:31:32

如何将 xls 中的所有字段作为字符串导入 Pandas dataframe？

问题描述

3 个解决方案

解决方案1 1 2022-02-28 09:32:14

解决方案2 0 已采纳 2017-01-25 23:03:00

解决方案3 -1 2017-01-25 22:31:32

解决方案1
1 2022-02-28 09:32:14

解决方案2
0 已采纳 2017-01-25 23:03:00

解决方案3
-1 2017-01-25 22:31:32