[英]return two lists from a list comprehension — performance
在我的程序中,我将获取所有目录和文件( walk
),然后将所有文件和目录以文件名作为键,并将路径作为值写入字典,然后从接口( tk.Entry
)获取关键字,并将所有匹配项返回到两个列表中。 我将显示它们( tk.Listbox
)并打开所选的win32shell
( win32shell
)。
我用这个创建了一个具有理解力的两个列表。 在评论中,它说:“仅运行两个单独的列表理解会更简单,而且可能会更快。” 所以那让我对使用哪一个感到困惑。 因为此程序将运行〜3TB数据,而我现在没有这些数据,所以我无法运行,看不到哪个会更快。
这是我的最小化代码,我分别删除了接口,并分别通过keywrd
和folder
变量定义了关键字和路径。
import os
import sqlite3
audio_ext = [".mp3",".mp4","etc..."]
folder = "C:\\Users\\Lafexlos\\Music"
keywrd = "mo" ##searching keyword which I normally get from user by Entry
conn = sqlite3.connect(":memory:")
data = conn.cursor()
data.execute(" create table if not exists audio(path text,\
filename text UNIQUE) ")
for roots ,dirs ,files in os.walk(folder):
for item in os.listdir(roots):
if "."+item.split(".")[-1].lower() in audio_ext:
#Above line is not eye-friendly but is only checks file's extension
data.execute(" INSERT OR IGNORE into audio \
(path, filename) VALUES (?,?)",(roots,item))
lines = {}
musics = data.execute("select * from audio")
[lines.update({row[1]:row[0]}) for row in musics]
# This is the option 1. Using zip to create two lists
results,paths = zip(*[(k,v) for k,v in lines.items() if keywrd in k])
# This is option 2. Running same list comprehension twice
results = [k for (k,v) in lines.items() if keywrd in k]
paths = [v for (k,v) in lines.items() if keywrd in k]
print ("Results: ", results)
print ("\n\nPaths: ", paths)
如上所述,我的问题是,处理大量数据时哪个会更快?
使用zip()
:
results, paths = zip(*((k, v) for k, v in lines.items() if keywrd in k))
因为这将一步生成两个列表。 另一种方法是使用一个for
循环 :
results = []
paths = []
for (k,v) in lines.items():
if keywrd in k:
results.append(k)
paths.append(v)
如果您想建立一个列表,列表理解能力很棒。 如果您需要同一循环中的多个循环,请使用循环。
但是,由于此数据来自SQLite查询,所以最好的选择是让SQLite将行限制为匹配的行:
data.execute("select * from audio if filename LIKE ?", ('%{}%'.format(keywrd),))
使用字典理解,可以更有效地构建lines
字典:
musics = data.execute("select * from audio")
lines = {row[1]: row[0] for row in musics}
或使用更具体的查询并在游标上直接循环:
data.execute("SELECT path, filename FROM audio WHERE filename LIKE ?",
('%{}%'.format(keywrd),))
paths, results = zip(*data)
对两侧都带有%
通配符的字符串的LIKE
产生相同的结果,并且在Python中进行in
测试; 如果keywrd
包含在filename
该行匹配。
现在,也无需创建中间词典。
使用for循环更快:
results = []; add_result = result.append
paths = []; add_path = path.append
for k,v in lines.items():
if keywrd in k:
add_result(k)
add_path(v)
最快的方法是使用内存中的sqlite数据库进行过滤。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.