基于形状的numpy数组的组列表。熊猫？

Question

我有一些包含numpy数组的类的实例。

import numpy as np
import os.path as osp
class Obj():
  def_init__(self, file):
     self.file = file
     self.data = np.fromfile(file)
     self.basename = osp.basename(file)

我有一个这样的对象列表，我想按形状分组。 我可以使用sort来做到这一点：

obj_list = [obj1, obj2, ..., objn]
obj_list.sort(key=lambda obj: obj.data.shape)

现在我有第二个列表，比如obj_list_2：obj_list_2中的对象是从不同的文件初始化的，但结果数组的形状与第一个相同（但顺序不同）， 基本名称也相同。

澄清这些是从不同文件夹加载的文件。 在每个文件夹中，我都有相同的文件，我应用了不同的预处理）

如果我使用上面显示的方法对它们进行排序，我最终会得到它

我希望这两个列表根据形状排序，并根据它们的基本名称进行对齐

我想先做一个基于形状的排序，后面跟一个基于basename （它的函数）的形状。 就像是

obj_list.sort(key=lambda obj: obj.data.shape)
obj_list.sort(key=lambda obj: obj.basename)

然而，第二种可能会使第一种螺旋。 它们应该以某种方式一起完成。

我的最终目标是从两个列表中提取具有相同形状且具有相同基本名称的对象

我尝试过大熊猫，但我对它并不熟悉。 首先，我根据基本名称对齐它们，然后创建一个列表列表并将其传递给pandas。

import pandas as pd
obj_list_of_list = [obj_list1, obj_list2]
obj_df = pd.DataFrame.from_records(obj_list_of_list)

缺少的是按形状对它们进行分组并提取不同的组。

Answer 1

您可以使用collections.defaultdict创建字典映射(file, shape)到对象list ：

from collections import defaultdict

d = defaultdict(list)

obj_list = [obj1, obj2, ..., objn]

for obj in obj_list:
    d[(obj.filename, obj.data.shape)].append(obj)

同样，只有在您希望时才能按形状排序：

d_shape = defaultdict(list)

for obj in obj_list:
    d_shape[obj.data.shape].append(obj)

然后，您可以通过d_shape.keys()访问唯一形状，并通过d_shape[some_shape]访问给定形状的对象列表。 这种解决方案的好处是您的复杂性是O（n），而排序将具有更高的复杂性，例如O（ n log n ）。

基于形状的numpy数组的组列表。熊猫？

问题描述

我的最终目标是从两个列表中提取具有相同形状且具有相同基本名称的对象

1 个解决方案

解决方案1
3 已采纳 2018-08-29 11:33:13

基于形状的numpy数组的组列表。 熊猫？

问题描述

我的最终目标是从两个列表中提取具有相同形状且具有相同基本名称的对象

1 个解决方案

解决方案1 3 已采纳 2018-08-29 11:33:13

基于形状的numpy数组的组列表。熊猫？

解决方案1
3 已采纳 2018-08-29 11:33:13