如何從列名中刪除非 ASCII 字符和空格

Question

我有一個數據框。 許多列名包含非 ASCII 字符和特殊字符，如 ()、/、+、. （中間的非 ascii 點）等和非 ascii 空格。 讀取 csv 時沒有發生這種情況。這是由於單熱編碼而發生的。 （當我將分類變量轉換為數字列時，類別值具有非 ascii 值）

df

Col1/name   Col 2() name    Col3 + name    Col4 ^¨ name   etc...

預期輸出

我只想要列名中的數字、下划線和字符（我只想更改列名，而不是數據框或行中的任何值）。 這是必要的，因為一些機器學習算法（例如 lightGBM）不適用於列名稱中的非 ASCII 字符或非 ASCII 空格。

預期輸出 df：

Col1name   Col_2_name    Col3__name    Col4__name   etc...

所以用下划線替換空格並刪除列名中的任何非數字和非字符。

Answer 1

使用pandas.Series.str.replace和findall一種方法：

df.columns = ["".join(l) for l in df.columns.str.replace("\s", "_").str.findall("[\w\d]+")]
print(df)

輸出：

Empty DataFrame
Columns: [Col1name, Col_2_name, Col3__name, Col4__name]
Index: []

Answer 2

您可以使用方法replace ：

df.columns.str.replace('\s+', '_').str.replace('\W+', '')

輸出：

Index(['Col1name', 'Col_2_name', 'Col3__name', 'Col4__name'], dtype='object')

您可以使用str.replace('_{2,}', '_')刪除多個下划線。

如何從列名中刪除非 ASCII 字符和空格

問題描述

2 個解決方案

解決方案1
6 已采納 2020-03-06 08:00:30

解決方案2
1 2020-03-06 08:23:30

如何從列名中刪除非 ASCII 字符和空格

問題描述

2 個解決方案

解決方案1 6 已采納 2020-03-06 08:00:30

解決方案2 1 2020-03-06 08:23:30

解決方案1
6 已采納 2020-03-06 08:00:30

解決方案2
1 2020-03-06 08:23:30