[英]Concatenate values into multiple columns based on associated value
給定一個數據框
+----+-------+------+-----------+-----------+---------------+
| | Key | ID | Status1 | Status2 | OrderID |
|----+-------+------+-----------+-----------+---------------|
| 0 | 1 | A1 | False | True | 1234-USF-0025 |
| 1 | 1 | A1 | False | True | 1234-USF-0026 |
| 2 | 1 | A1 | False | True | 1234-USF-0027 |
| 3 | 2 | A1 | True | True | 1234-USF-0025 |
| 4 | 2 | A1 | True | True | 1234-USF-0026 |
| 5 | 2 | A1 | True | True | 1234-USF-0027 |
| 6 | 3 | A1 | Anything | True | 1234-USF-0025 |
| 7 | 3 | A1 | False | True | 1234-USF-0026 |
| 8 | 3 | A1 | False | Anything | 1234-USF-0027 |
| 9 | 4 | A2 | True | True | 1234-USF-0028 |
| 10 | 4 | A2 | True | True | 1234-USF-0029 |
| 11 | 4 | A2 | True | True | 1234-USF-0030 |
| 12 | 5 | A3 | True | True | 1234-USF-0031 |
| 13 | 5 | A3 | True | True | 1234-USF-0032 |
| 14 | 5 | A3 | True | True | 1234-USF-0033 |
| 15 | 6 | A4 | True | True | 1234-USF-0034 |
| 16 | 6 | A4 | True | True | 1234-USF-0035 |
| 17 | 6 | A4 | True | True | 1234-USF-0036 |
+----+-------+------+-----------+-----------+---------------+
如何轉換以列出每個ID
每個OrderID
並根據每個Status
連接Key
。 如果兩個Stautses
都為 True,則連接的Keys
應位於TRUE
列中。 如果其中任何一個是Flase
,則Keys
應位於FALSE
列中。 如果其中一個(或兩者) Status
不是True
或False
,則Key(s)
將連接到Other
列中。
預期結果 df
Order ID ID TRUE FALSE OTHER
1234-USF-0025 A1 2 1 3
1234-USF-0026 A1 2 1,3
1234-USF-0027 A1 2 1 3
1234-USF-0028 A2 4
1234-USF-0029 A2 4
1234-USF-0030 A2 4
1234-USF-0031 A3 5
1234-USF-0032 A3 5
1234-USF-0033 A3 5
1234-USF-0034 A4 6
1234-USF-0035 A4 6
1234-USF-0036 A4 6
我試過的
df = df.groupby(['OrderID','ID'])['Key'].apply(','.join).reset_index()
+----+---------------+------+-------+
| | OrderID | ID | Key |
|----+---------------+------+-------|
| 0 | 1234-USF-0025 | A1 | 1,2,3 |
| 1 | 1234-USF-0026 | A1 | 1,2,3 |
| 2 | 1234-USF-0027 | A1 | 1,2,3 |
| 3 | 1234-USF-0028 | A2 | 4 |
| 4 | 1234-USF-0029 | A2 | 4 |
| 5 | 1234-USF-0030 | A2 | 4 |
| 6 | 1234-USF-0031 | A3 | 5 |
| 7 | 1234-USF-0032 | A3 | 5 |
| 8 | 1234-USF-0033 | A3 | 5 |
| 9 | 1234-USF-0034 | A4 | 6 |
| 10 | 1234-USF-0035 | A4 | 6 |
| 11 | 1234-USF-0036 | A4 | 6 |
+----+---------------+------+-------+
以上當然讓我很接近,但我不知道如何將Keys
分解為各自的列( TRUE
、 FALSE
和OTHER
)
筆記
我之前將Key
列轉換為字符串
Order IDs
可以為IDs
重復,但會有不同的Keys
這是一個可行的解決方案,但絕對有一種更快、更干凈的方法來做到這一點。 首先,我為您的布爾邏輯添加一列,然后我執行groupby
以壓縮表,然后我使用Key
和Result
列遍歷並填充True
、 False
和Other
列。 最后我刪除不需要的列並聚合行。
import pandas as pd
import numpy as np
# Your dataframe for testing purposes
df = pd.DataFrame({'Key': '1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6'.split(),
'ID': 'A1 A1 A1 A1 A1 A1 A1 A1 A1 A2 A2 A2 A3 A3 A3 A4 A4 A4'.split(),
'Status1': 'False False False True True True Anything False False True True True True True True True True True'.split(),
'Status2': 'True True True True True True True True Anything True True True True True True True True True'.split(),
'OrderID': '25 26 27 25 26 27 25 26 27 28 29 30 31 32 33 34 35 36'.split()})
# First we need to do this boolean logic
df["Result"] = ""
for index, row in df.iterrows():
stat1 = row["Status1"]
stat2 = row["Status2"]
if stat1 == "True" and stat2 == "True":
row["Result"] = "True"
elif stat1 == "False" and stat2 == "False" or stat1 == "True" and stat2 == "False" or stat1 == "False" and stat2 == "True":
row["Result"] = "False"
else:
row["Result"] = "Other"
# Now we do your group by
df = df.groupby(['OrderID','ID', 'Result'])['Key'].apply(','.join).reset_index()
# Now we populate the columns you wanted populated
df["True"] = ""
df["False"] = ""
df["Other"] = ""
for index, row in df.iterrows():
if row[row["Result"]]:
row[row["Result"]] += "," + row["Key"]
else:
row[row["Result"]] += row["Key"]
del df['Result']
del df['Key']
# Final we aggregate the rows to flatten it.
df = df.groupby(['OrderID','ID'], as_index=False).agg(lambda x: "%s" % ''.join(x))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.