繁体   English   中英

从列表理解中返回两个列表-性能

[英]return two lists from a list comprehension — performance

在我的程序中,我将获取所有目录和文件( walk ),然后将所有文件和目录以文件名作为键,并将路径作为值写入字典,然后从接口( tk.Entry )获取关键字,并将所有匹配项返回到两个列表中。 我将显示它们( tk.Listbox )并打开所选的win32shellwin32shell )。

我用这个创建了一个具有理解力的两个列表。 在评论中,它说:“仅运行两个单独的列表理解会更简单,而且可能会更快。” 所以那让我对使用哪一个感到困惑。 因为此程序将运行〜3TB数据,而我现在没有这些数据,所以我无法运行,看不到哪个会更快。

这是我的最小化代码,我分别删除了接口,并分别通过keywrdfolder变量定义了关键字和路径。

import os
import sqlite3

audio_ext = [".mp3",".mp4","etc..."]
folder = "C:\\Users\\Lafexlos\\Music"
keywrd = "mo"  ##searching keyword which I normally get from user by Entry

conn = sqlite3.connect(":memory:")
data  = conn.cursor()
data.execute(" create table if not exists audio(path text,\
                filename text UNIQUE) ")

for roots ,dirs ,files in os.walk(folder):
    for item in os.listdir(roots):
        if "."+item.split(".")[-1].lower() in audio_ext:
        #Above line is not eye-friendly but is only checks file's extension
            data.execute(" INSERT OR IGNORE into audio \
                (path, filename) VALUES (?,?)",(roots,item))

lines = {}
musics = data.execute("select * from audio")
[lines.update({row[1]:row[0]}) for row in musics]


# This is the option 1. Using zip to create two lists
results,paths = zip(*[(k,v) for k,v in lines.items() if keywrd in k])

# This is option 2. Running same list comprehension twice
results = [k for (k,v) in lines.items() if keywrd in k]
paths = [v for (k,v) in lines.items() if keywrd in k]

print ("Results: ", results)
print ("\n\nPaths: ", paths)

如上所述,我的问题是,处理大量数据时哪个会更快?

使用zip()

results, paths = zip(*((k, v) for k, v in lines.items() if keywrd in k))

因为这将一步生成两个列表。 另一种方法是使用一个for循环

results = []
paths = []
for (k,v) in lines.items():
    if keywrd in k:
        results.append(k)
        paths.append(v)

如果您想建立一个列表,列表理解能力很棒。 如果您需要同一循环中的多个循环,请使用循环。

但是,由于此数据来自SQLite查询,所以最好的选择是让SQLite将行限制为匹配的行:

data.execute("select * from audio if filename LIKE ?", ('%{}%'.format(keywrd),))

使用字典理解,可以更有效地构建lines字典:

musics = data.execute("select * from audio")
lines = {row[1]: row[0] for row in musics}

或使用更具体的查询并在游标上直接循环:

data.execute("SELECT path, filename FROM audio WHERE filename LIKE ?",
             ('%{}%'.format(keywrd),))
paths, results = zip(*data)

对两侧都带有%通配符的字符串的LIKE产生相同的结果,并且在Python中进行in测试; 如果keywrd包含在filename该行匹配。

现在,也无需创建中间词典。

使用for循环更快:

results = []; add_result = result.append
paths = []; add_path = path.append
for k,v in lines.items():
    if keywrd in k:
        add_result(k)
        add_path(v)

最快的方法是使用内存中的sqlite数据库进行过滤。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM