如何使用Pandas DataFrame读取xlsx文件中带有特殊字符的数据？

Question

我想读取熊猫数据框中的xlsx文件，并对数据执行一些操作。 我可以使用以下命令读取文件：

df = pd.read_excel('file.xlsx')

但是，当我尝试对数据执行某些操作时，出现以下错误：

ValueError: could not convert string to float:''disc abc r14jt mt cxp902 5 r2eu fail''

我该如何解决这个问题。 我已经尝试过encoding ='utf-8'，但后来我也遇到了错误。

实际上，我有一个xlsx文件“ original.xlsx”，我正在过滤该文件中的某些数据，并使用以下命令将该数据另存为“ file.xlsx”：

original.to_excel("file.xlsx",index=False,header=['a','b','c'],engine='xlsxwriter')

现在，当我尝试读取'file.xlsx'文件并对其执行一些操作时，出现了该错误。 我保存文件或阅读文件时是否有任何问题。

Answer 1

xl_file = pd.ExcelFile(file_name)

dfs = {sheet_name: xl_file.parse(sheet_name) 
      for sheet_name in xl_file.sheet_names}

Answer 2

你可以试试：

import pandas as pd
df = pd.read_excel('file.xlsx', encoding='latin1')

Answer 3

如果将float列写为=“ 3.300,144”，则应执行以下操作：

a = a.replace(".", "")

a = a.replace(",", ".")

float(a)

输出一个

33300.144