从列表理解中返回两个列表-性能

Question

在我的程序中，我将获取所有目录和文件（ walk ），然后将所有文件和目录以文件名作为键，并将路径作为值写入字典，然后从接口（ tk.Entry ）获取关键字，并将所有匹配项返回到两个列表中。 我将显示它们（ tk.Listbox ）并打开所选的win32shell （ win32shell ）。

我用这个创建了一个具有理解力的两个列表。 在评论中，它说：“仅运行两个单独的列表理解会更简单，而且可能会更快。” 所以那让我对使用哪一个感到困惑。 因为此程序将运行〜3TB数据，而我现在没有这些数据，所以我无法运行，看不到哪个会更快。

这是我的最小化代码，我分别删除了接口，并分别通过keywrd和folder变量定义了关键字和路径。

import os
import sqlite3

audio_ext = [".mp3",".mp4","etc..."]
folder = "C:\\Users\\Lafexlos\\Music"
keywrd = "mo"  ##searching keyword which I normally get from user by Entry

conn = sqlite3.connect(":memory:")
data  = conn.cursor()
data.execute(" create table if not exists audio(path text,\
                filename text UNIQUE) ")

for roots ,dirs ,files in os.walk(folder):
    for item in os.listdir(roots):
        if "."+item.split(".")[-1].lower() in audio_ext:
        #Above line is not eye-friendly but is only checks file's extension
            data.execute(" INSERT OR IGNORE into audio \
                (path, filename) VALUES (?,?)",(roots,item))

lines = {}
musics = data.execute("select * from audio")
[lines.update({row[1]:row[0]}) for row in musics]


# This is the option 1. Using zip to create two lists
results,paths = zip(*[(k,v) for k,v in lines.items() if keywrd in k])

# This is option 2. Running same list comprehension twice
results = [k for (k,v) in lines.items() if keywrd in k]
paths = [v for (k,v) in lines.items() if keywrd in k]

print ("Results: ", results)
print ("\n\nPaths: ", paths)

如上所述，我的问题是，处理大量数据时哪个会更快？

Answer 1

使用zip() ：

results, paths = zip(*((k, v) for k, v in lines.items() if keywrd in k))

因为这将一步生成两个列表。 另一种方法是使用一个for循环 ：

results = []
paths = []
for (k,v) in lines.items():
    if keywrd in k:
        results.append(k)
        paths.append(v)

如果您想建立一个列表，列表理解能力很棒。 如果您需要同一循环中的多个循环，请使用循环。

但是，由于此数据来自SQLite查询，所以最好的选择是让SQLite将行限制为匹配的行：

data.execute("select * from audio if filename LIKE ?", ('%{}%'.format(keywrd),))

使用字典理解，可以更有效地构建lines字典：

musics = data.execute("select * from audio")
lines = {row[1]: row[0] for row in musics}

或使用更具体的查询并在游标上直接循环：

data.execute("SELECT path, filename FROM audio WHERE filename LIKE ?",
             ('%{}%'.format(keywrd),))
paths, results = zip(*data)

对两侧都带有%通配符的字符串的LIKE产生相同的结果，并且在Python中进行in测试； 如果keywrd包含在filename该行匹配。

现在，也无需创建中间词典。

Answer 2

使用for循环更快：

results = []; add_result = result.append
paths = []; add_path = path.append
for k,v in lines.items():
    if keywrd in k:
        add_result(k)
        add_path(v)

最快的方法是使用内存中的sqlite数据库进行过滤。

从列表理解中返回两个列表-性能

问题描述

2 个解决方案

解决方案1
3 已采纳 2014-04-22 10:00:59

解决方案2
1 2014-04-22 10:04:20

从列表理解中返回两个列表-性能

问题描述

2 个解决方案

解决方案1 3 已采纳 2014-04-22 10:00:59

解决方案2 1 2014-04-22 10:04:20

解决方案1
3 已采纳 2014-04-22 10:00:59

解决方案2
1 2014-04-22 10:04:20