如何將 xls 中的所有字段作為字符串導入 Pandas dataframe？

Question

我正在嘗試將文件從 xlsx 導入 Python Pandas dataframe。我想防止字段/列被解釋為整數，從而丟失前導零或其他所需的異構格式。

因此，對於包含 100 列的 Excel 工作表，我將使用帶范圍 (99) 的字典理解來執行以下操作。

import pandas as pd
filename = 'C:\DemoFile.xlsx'

fields = {col: str for col in range(99)}

df = pd.read_excel(filename, sheetname=0, converters=fields)

這些導入文件確實始終具有不同數量的列，我希望以不同於一直手動更改范圍的方式來處理這個問題。

對於將 Excel 文件讀入 dataframe 並默認將所有字段視為字符串，是否有人有任何進一步的建議或替代方案？

非常感謝！

Answer 1

調用.read_excel()時使用 dtype dtype=str

import pandas as pd
filename = 'C:\DemoFile.xlsx'

df = pd.read_excel(filename, dtype=str)

Answer 2

嘗試這個：

xl = pd.ExcelFile(r'C:\DemoFile.xlsx')
ncols = xl.book.sheet_by_index(0).ncols
df = xl.parse(0, converters={i : str for i in range(ncols)})

更新：

In [261]: type(xl)
Out[261]: pandas.io.excel.ExcelFile

In [262]: type(xl.book)
Out[262]: xlrd.book.Book

Answer 3

通常的解決方案是：

讀取一行數據只是為了獲取列名和列數
自動創建字典，其中每列都有一個字符串類型
使用在步驟2中創建的詞典重新讀取全部數據。

如何將 xls 中的所有字段作為字符串導入 Pandas dataframe？

問題描述

3 個解決方案

解決方案1
1 2022-02-28 09:32:14

解決方案2
0 已采納 2017-01-25 23:03:00

解決方案3
-1 2017-01-25 22:31:32

如何將 xls 中的所有字段作為字符串導入 Pandas dataframe？

問題描述

3 個解決方案

解決方案1 1 2022-02-28 09:32:14

解決方案2 0 已采納 2017-01-25 23:03:00

解決方案3 -1 2017-01-25 22:31:32

解決方案1
1 2022-02-28 09:32:14

解決方案2
0 已采納 2017-01-25 23:03:00

解決方案3
-1 2017-01-25 22:31:32