繁体   English   中英

检查行是否以列表中的字符串开头的首选方法?

[英]Preferred way to check if a line starts with a string from list?

我试图逐行对文件进行排序,将开头与列表中的字符串进行比较,如下所示:

for line in lines:
    skip_line = True
    for tag in tags:
        if line.startswith(tag) is False:
            continue
        else:
            skip_line = False
            break
    if skip_line is False:
        #do stuff

虽然代码可以正常工作,但我想知道是否有一种更整洁的方法来检查这种情况。 我已经看过any() ,但似乎只是让我可以检查我的任何行是否都以固定标签开头(而不是消除遍历列表的for循环)。

所以,本质上我是在问:
是否有比使用for循环遍历我的tags列表以检查当前行是否以其元素之一开头更好的,更时尚的选择?

正如Paradox在他的回答中指出的那样:使用字典查找字符串是否存在具有O(1)复杂性,实际上使整个代码看起来更简洁,同时比遍历列表更快。 像这样:

tags = {'ticker':0, 'orderBook':0, 'tradeHistory':0}
for line in lines:
    if line.split('\t')[0] in tags:
        #do stuff

如果您决定将其归为一类,则可以使用生成器:

tagged_lines = (line for line in lines if any(line.startswith(tag) for tag in tags))
for line in tagged_lines:
    # Do something with line here 

当然,这是如何可读的是另一个问题。

您之前可能已经看过[x*x for x in range(10)]语法[x*x for x in range(10)]语法,但是通过将[]换为() ,我们只在需要时才生成每个项目。

无需遍历标签列表,您可以将所有标签放入HashMap中,并进行类似于myMap.exists(“ word”)的简单查找。 这将比遍历标签列表要快得多,并且可以处理O(1)复杂性。 在python中,它实际上是一个字典数据结构。 http://progzoo.net/wiki/Python:Hash_Maps

这已经被问过了。 看看这篇文章,了解更多解决方案。 我会将此帖子标记为重复,但我仍然没有声誉。

https://stackoverflow.com/a/10477481/5016492

您需要修改正则表达式,使其看起来在行的开头。 这样的事情应该为您工作'^ tag'。

实际上, any()可以胜任

循环每行

for line in lines:
     tagged = any(lambda: line.startswith(y), tags)

任何列表以任何标签开头

any(lambda x: any(lambda y: x.startswith(y), tags), lines)

过滤标记的行

filter(lambda x: any(lambda y: x.startswith(y), tags), lines)

如何将any()和filter()结合起来,如本例所示:

# use your data here ...
mytags = ('hello', 'world')
mylines = ('hello friend', 'you are great', 'world is cruel')

result = filter(lambda line: any(map(lambda tag: line.startswith(tag), mytags)), mylines)
print result

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM