![](/img/trans.png)
[英]Sort Pandas DataFrame by string column that represents (mostly) numbers?
[英]Sort a String of Numbers in a Pandas Column
我之前创建了一个创建作者索引的 python 脚本。
为了省去细节,(因为从 pdf 中提取文本非常困难)我创建了一个最小的可重现示例。 我目前的状态是为每个作者换行,并以逗号分隔作者所在页面的列表。 但是我想以升序方式对页面列表进行排序。
import pandas as pd
import csv
words = ["Autor1","Max Mustermann","Max Mustermann","Autor1","Bertha Musterfrau","Author2"]
pages = [15,13,5,1,17,20]
str_pages = list(map(str, pages))
df = pd.DataFrame({"Autor":words,"Pages":str_pages})
df = df.drop_duplicates().sort_values(by="Autor").reset_index(drop=True)
df = df.groupby("Autor")['Pages'].apply(lambda x: ','.join(x)).reset_index()
df
这将产生所需的 output(页面排序除外)。
Autor Pages
0 Author2 20
1 Autor1 15,1
2 Bertha Musterfrau 17
3 Max Mustermann 13,5
我尝试将Pages
列矢量化为字符串,用逗号分隔并应用 lambda function 应该对结果列表进行排序。
df["Pages"] = df["Pages"].str.split(",").apply(lambda x: sorted(x))
df
然而,这只适用于Autor1
但不适用于Max Mustermann
。 我似乎无法弄清楚为什么会这样
Autor Pages
0 Author2 [20]
1 Autor1 [1, 15]
2 Bertha Musterfrau [17]
3 Max Mustermann [13, 5]
str.split
返回字符串列表。 所以lambda x: sorted(x)
仍然按字符串排序,而不是整数。
你可以试试:
df['Pages'] = (df.Pages.str.split(',')
.explode().astype(int)
.sort_values()
.groupby(level=0).agg(list)
)
Output:
Autor Pages
0 Author2 [20]
1 Autor1 [1, 15]
2 Bertha Musterfrau [17]
3 Max Mustermann [5, 13]
如果您想使用现有的方法,
df.Pages = (
df.Pages.str.split(",")
.apply(lambda x: sorted(x, key=lambda x: int(x)))
)
Autor Pages
0 Author2 [20]
1 Autor1 [1, 15]
2 Bertha Musterfrau [17]
3 Max Mustermann [5, 13]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.