在 Python 中使用数组加载数据

Question

在 .txt 文件中有这样格式的数据：

UserId   WordID
  1       20
  1       30
  1       40
  2       25
  2       16
  3       56
  3       44
  3       12

我在寻找什么 - 一些功能可以为每个创建 wordid 列表的 userid 提供结果分组：

[[20, 30, 40], [25, 16], [56, 44, 12]]

我想做的是：

def loadSet(path='/data/file.txt'):
  datset={}
  for line in open(path+'/file.txt'):
    (userid,wordid)=line.split('\t')
    dataset.setdefault(user,{})
    dataset[userid][wordid]=float(wordid)
    return dataset

但我不能处理它。 你能建议这样做的正确方法吗？

Answer 1

我认为您可以将groupby与apply tolist与values tolist使用：

print df.groupby('UserId')['WordID'].apply(lambda x: x.tolist()).values
[[20, 30, 40] [25, 16] [56, 44, 12]]

或申请list ，谢谢BM

print df.groupby('UserId')['WordID'].apply(list).values
[[20, 30, 40] [25, 16] [56, 44, 12]]

时间：

df = pd.concat([df]*1000).reset_index(drop=True)

In [358]: %timeit df.groupby('UserId')['WordID'].apply(list).values
1000 loops, best of 3: 1.22 ms per loop

In [359]: %timeit df.groupby('UserId')['WordID'].apply(lambda x: x.tolist()).values
1000 loops, best of 3: 1.23 ms per loop

Answer 2

虽然根据您的目的，您可能对在pandas中执行此操作更感兴趣，但 numpy 的方法是：

userid,wordid = np.loadtxt('/data/file.txt',skiprows=1,unpack=True)
#example use:
mylist = []
for uid in np.unique(userid):
    mylist.append(wordid[userid==uid])

Answer 3

如果您关心性能问题，通常 numpy 会更好：

df=pd.read_csv('file.txt')
def numpyway():
    u,v=df.values.T
    ind=argsort(u,kind='mergesort') # stable sort to preserve order
    return np.split(v[ind],add(1,*where(diff(u[ind]))))


In [12]: %timeit numpyway() # on 8000 lines
10000 loops, best of 3: 250 µs per loop

如果 'UserId' 已经排序，它仍然快三倍。

在 Python 中使用数组加载数据

问题描述

3 个解决方案

解决方案1
1 已采纳 2016-04-05 09:24:03

解决方案2
0 2016-04-05 09:27:20

解决方案3
0 2016-04-05 09:44:33

在 Python 中使用数组加载数据

问题描述

3 个解决方案

解决方案1 1 已采纳 2016-04-05 09:24:03

解决方案2 0 2016-04-05 09:27:20

解决方案3 0 2016-04-05 09:44:33

解决方案1
1 已采纳 2016-04-05 09:24:03

解决方案2
0 2016-04-05 09:27:20

解决方案3
0 2016-04-05 09:44:33