Pandas Function 將多行文本列拆分為多列

Question

我有以下格式的列（stud_info）

stud_info = """Name: Mark
Address: 
PHX, AZ
Hobbies: 
1. Football
2. Programming
3. Squash"""

源數據

原始數據中的列 (stud_info) 是 stud_info，其中包含多行文本形式的數據。 我需要將它分成 3 列（姓名、地址和愛好）。 對於簡單的拆分，我們可以通過 lambda 函數來完成，但這是多行拆分，列名也是數據的一部分。 （即文本名稱、地址和愛好不應成為列的一部分）。 最后的列應該看起來像

最終數據

請建議使用 pandas 的方法。

Answer 1

鑒於：

df = pd.DataFrame({'stud_info': {0: 'Name: Mark\nAddress: \nPHX, AZ\nHobbies: \n1. Football\n2. Programming\n3. Squash'}})

我們可以為您的特定格式定義正則表達式，並使用pd.Series.str.extract方法將組分成不同的列。 有關該模式的解釋，請參閱Regexr 。

import re

pattern = 'Name:\s(.+)\nAddress:\s\n(.+)\nHobbies:\s\n(.+)'
# We need flags=re.DOTALL to allow the final group to encompass multiple lines.
df[['Name', 'Address', 'Hobbies']] = df.stud_info.str.extract(pattern, flags=re.DOTALL)
print(df[['Name', 'Address', 'Hobbies']])

Output：

   Name  Address                                 Hobbies
0  Mark  PHX, AZ  1. Football\n2. Programming\n3. Squash

Answer 2

我的解決方案：

import pandas as pd 
import re

txt = """Name: Mark
Address: 
PHX, AZ
Hobbies: 
1. Football
2. Programming
3. Squash"""

pattern = re.compile('Name:\s(.+)\nAddress:\s\n(.+)\nHobbies:\s\n([\w\W]*)')

re_match = pattern.match(txt)
df = pd.DataFrame([list(re_match.groups())], columns=['Name', 'Address', 'Hobbies'])
df

Output：

Pandas Function 將多行文本列拆分為多列

問題描述

2 個解決方案

解決方案1
4 2022-09-01 17:34:08

解決方案2
0 2022-09-01 18:29:56

Pandas Function 將多行文本列拆分為多列

問題描述

2 個解決方案

解決方案1 4 2022-09-01 17:34:08

解決方案2 0 2022-09-01 18:29:56

解決方案1
4 2022-09-01 17:34:08

解決方案2
0 2022-09-01 18:29:56