Pandas 子字符串 DataFrame 列

Question

我有一個 Pandas DataFrame，其中有一列名為positions ，其中包含具有以下示例語法的字符串值：

[{'y': 49, 'x': 44}, {'y': 78, 'x': 31}]
[{'y': 1, 'x': 63}, {'y': 0, 'x': 23}]
[{'y': 54, 'x': 9}, {'y': 78, 'x': 3}]

我想在我的 Pandas DataFrame 中創建四個新列， y_start ， x_start ， y_end ， x_end ，它們只是數字的提取。

例如，對於第一行的示例，我的新列將具有以下值：

y_start = 49
x_start = 44
y_end = 78
x_end = 31

總而言之，我希望只提取第一次、第二次、第三次和第四次出現的數字並將它們保存到單獨的列中。

Answer 1

第一個問題是將字符串轉換回字典，這可以用ast.literal_eval來完成
使用pandas.DataFrame構造函數分隔列表以分隔列，因為它比使用.apply(pd.Series)更快
- Pandas 將一列列表拆分為多列
使用pandas.json_normalize 、 .rename列和.concat將每列中的字典轉換為每個鍵的單獨列。
將 Pandas 列中的字典/列表拆分為單獨的列並不能完全回答這個問題，但它是相似的。
如果數據是從 csv 加載的，請使用帶有.read_csv的converters參數。
- df = pd.read_csv('data.csv', converters={'str_column': literal_eval})

import pandas as pd
from ast import literal_eval

# dataframe
data = {'data': ["[{'y': 49, 'x': 44}, {'y': 78, 'x': 31}]", "[{'y': 1, 'x': 63}, {'y': 0, 'x': 23}]", "[{'y': 54, 'x': 9}, {'y': 78, 'x': 3}]"]}

df = pd.DataFrame(data)

# convert the strings in the data column to dicts
df.data = df.data.apply(literal_eval)

# separate the strings into separate columns
df[['start', 'end']] = pd.DataFrame(df.data.tolist(), index=df.index)

# use json_normalize to convert the dicts to separate columns and join the dataframes with concat
cleaned = pd.concat([pd.json_normalize(df.start).rename(lambda x: f'{x}_start', axis=1), pd.json_normalize(df.end).rename(lambda x: f'{x}_end', axis=1)], axis=1)

# display(cleaned)
   y_start  x_start  y_end  x_end
0       49       44     78     31
1        1       63      0     23
2       54        9     78      3

Answer 2

將字符串轉換為對象：

import ast
df['positions'] = df['positions'].apply(ast.literal_eval)

這是一種方式：

df1 = pd.DataFrame.from_records(pd.DataFrame.from_records(df.positions)[0]).rename(columns={"x":"x_start", "y":"y_start"})    
df2 = pd.DataFrame.from_records(pd.DataFrame.from_records(df.positions)[1]).rename(columns={"x":"x_end", "y":"y_end"})
df_new = pd.concat([df1, df2], axis=1)

另一個，更簡潔一點：

df1 = pd.DataFrame(df.positions.to_list())[0].apply(pd.Series).rename(columns={"x":"x_start", "y":"y_start"})
df2 = pd.DataFrame(df.positions.to_list())[1].apply(pd.Series).rename(columns={"x":"x_end", "y":"y_end"})
df_new = pd.concat([df1, df2], axis=1)

我不知道這些方法比較的時間或內存性能。

輸出（任一方法）：

   y_start  x_start  y_end  x_end
0       49       44     78     31
1        1       63      0     23
2       54        9     78      3

Answer 3

不太干凈，但工作方法是編寫一個自定義函數並應用 lambda 假設您的所有行都遵循您的問題中提供的相同模式：

### custom function
def startEndxy(x):
    x = x.split(':')
    return x[1].split(',')[0].replace(' ', ''), x[2].split('},')[0].replace(' ', ''), x[3].split(',')[0].replace(' ', ''), x[4].split('}')[0].replace(' ', '')


### columns creations
df['y_start'] = df['positions'].apply(lambda x: startEndxy(x)[0])
df['x_start'] = df['positions'].apply(lambda x: startEndxy(x)[1])
df['y_end'] = df['positions'].apply(lambda x: startEndxy(x)[2])
df['x_end'] = df['positions'].apply(lambda x: startEndxy(x)[3])

它應該給你這個輸出：輸出

Answer 4

首先重建你的系列

df = pd.DataFrame(df['position'].tolist()).rename(columns={0: 'starts', 1:'ends'})

              starts               ends
0  {'y': 54, 'x': 9}  {'y': 78, 'x': 3}
1  {'y': 1, 'x': 63}  {'y': 0, 'x': 23}
2  {'y': 54, 'x': 9}  {'y': 78, 'x': 3}

然后分配開始和結束列

starts = pd.DataFrame(df['starts'].tolist()).rename(columns={'y': 'y_start', 'x': 'x_start'})
ends = pd.DataFrame(df['end'].tolist()).rename(columns={'y': 'y_start', 'x': 'x_start'})

df = pd.concat([starts, ends], axis=1)

   y_start  x_start  y_end  x_end
0       54        9     78      3
1        1       63      0     23
2       54        9     78      3

Pandas 子字符串 DataFrame 列

問題描述

4 個解決方案

解決方案1
3 已采納 2020-09-03 22:16:06

解決方案2
2 2020-09-03 21:57:30

解決方案3
2 2020-09-03 22:15:35

解決方案4
1 2020-09-03 22:26:05

Pandas 子字符串 DataFrame 列

問題描述

4 個解決方案

解決方案1 3 已采納 2020-09-03 22:16:06

解決方案2 2 2020-09-03 21:57:30

解決方案3 2 2020-09-03 22:15:35

解決方案4 1 2020-09-03 22:26:05

解決方案1
3 已采納 2020-09-03 22:16:06

解決方案2
2 2020-09-03 21:57:30

解決方案3
2 2020-09-03 22:15:35

解決方案4
1 2020-09-03 22:26:05