遍歷數據框中選定列的行以“清理”每一行

Question

我想為統計分析准備數據，並且在數據集中出現空白問題。 我的功能在哪里出錯？

這是我使用通常可以解決問題的函數創建的代碼。 不幸的是，數據幀似乎並非如此。 有關數據框的一些背景信息：我要清除的列是“ LOCATION”，其中包含描述地址的字符串。

for i in data.index:
    data.at[i, "LOCATION"] = data.at[i, "LOCATION"].split()
    data.at[i, "LOCATION"] = " ".join(data.at[i, "LOCATION"])

示例行（未清除）'15300________SATICOY____________ST'* _代表空格

使用split（）['15300'，'SATICOY'，'ST']后的所述行

加入'1 5 3 0 0 SATICOYS T'后

在我真正想要將字符串重新連接在一起之前，代碼可以正常工作。 我的目標是加入由空格分隔的字符串，因此為“ 15300 SATICOY ST”。

感謝幫助！

Answer 1

無需在此處循環，將Series.str.replace與regex表達式\\s+ （1個或多個空格字符）一起使用 。 將此替換為1個空格：

data['LOCATION'] = data['LOCATION'].str.replace('\s+', ' ')

Answer 2

很簡單-這樣做

data["LOCATION"]=data["LOCATION"].str.strip(" ") # this will remove all the trailing and leading spaces
data["LOCATION"]=data["LOCATION"].str.replace('\s+', ' ') #this will remove all the extra spaces.

遍歷數據框中選定列的行以“清理”每一行

問題描述

2 個解決方案

解決方案1
2 已采納 2019-06-13 08:52:40

解決方案2
2 2019-06-13 08:59:27

遍歷數據框中選定列的行以“清理”每一行

問題描述

2 個解決方案

解決方案1 2 已采納 2019-06-13 08:52:40

解決方案2 2 2019-06-13 08:59:27

解決方案1
2 已采納 2019-06-13 08:52:40

解決方案2
2 2019-06-13 08:59:27