这些嵌套的for循环的等效列表理解是什么？

Question

我有博客的标题叫做列表lst ，并呼吁停止单词列表stops 。

这段代码正是我想要的，从lst删除了两个列表中出现的每个单词：

for line in lst:
    for stop in stops:
        line = re.sub(r"\b" + stop.rstrip("\n") + r"\b", "", line.lower())
    print(line)

但是，出于好奇和渴望编写更简洁/高效的代码，我想将其转变为列表理解。

我尝试了这个：

lst = [[re.sub(r"\b" + stop.rstrip("\n") + r"\b", "", line.lower()) for stop in stops] for line in list]

...但无济于事。 执行后，代码将引发ValueError异常，如下所示：

Traceback (most recent call last):
  File "F:\Visual Studio Projects\RBTrends\RBTrends\main.py", line 55, in <module> prepData()
  File "F:\Visual Studio Projects\RBTrends\RBTrends\main.py", line 42, in prepData
    filelst = aps.stripStopWords(filelst, STOP_WORDS_PATH)
  File "F:\Visual Studio Projects\RBTrends\RBTrends\articleprocesses.py", line 34, in stripStopWords
    lst = [[re.sub(r"\b" + stop.rstrip("\n") + r"\b", "", line.lower()) for stop in stops] for line in list]
TypeError: 'type' object is not iterable

有人可以解释此错误的原因，以及如何通过编写其他列表理解来解决该错误？

Answer 1

您的代码中有错字：

lst = [[.... for stop in stops] for line in list]
                                          ----^

将该list替换为lst 。 list是Python中的类型名称，因此是ValueError 。

Answer 2

再现内部循环的唯一方法是用reduce ：

from functools import reduce  # for Python 3

result = [reduce(lambda line, stop: re.sub(r'\b' + stop.rstrip('\n') + r'\b', '', line), stops, line.lower()) for line in lst]

请不要这样做。 您的代码很好。 如果要加快速度，只需预编译一次可替换所有单词的正则表达式即可。

stop_regex = re.compile(r'\b' + r'\b|\b'.join(map(re.escape, stops)) + r'\b')

for line in lst:
    print(stop_regex.sub('', line.lower()))

这些嵌套的for循环的等效列表理解是什么？

问题描述

2 个解决方案

解决方案1
2 已采纳 2014-07-17 21:35:13

解决方案2
1 2014-07-17 21:42:34

这些嵌套的for循环的等效列表理解是什么？

问题描述

2 个解决方案

解决方案1 2 已采纳 2014-07-17 21:35:13

解决方案2 1 2014-07-17 21:42:34

解决方案1
2 已采纳 2014-07-17 21:35:13

解决方案2
1 2014-07-17 21:42:34