如何过滤包含N个或更多字符的所有单词？

Question

我想处理一个文本文件，以查找包含超过N个字符的所有单词。 欢迎使用Bash（grep，awk）或Python（re）中的任何解决方案！ 但是，最短的是首选。

Answer 1

egrep -o '[^ ]{N,}' <filename>

查找所有至少N字符长的非空格构造。 如果您担心“单词”，可以尝试[a-zA-Z] 。

Answer 2

#!/usr/bin/env python

import sys, re

def morethan(n, file_or_string):
    try:
        content = open(file_or_string, 'r').read()
    except:
        content = file_or_string
    pattern = re.compile("[\w]{%s,}" % n)
    return pattern.findall(content)

if __name__ == '__main__':
    try:
        print morethan(*sys.argv[1:])
    except:
        print >> sys.stderr, 'Usage: %s [COUNT] [FILENAME]' % sys.argv[0]

用法示例（通过此要点）：

$ git clone -q git://gist.github.com/763574.git && \
     cd 763574 && python morethan.py 7 morethan.py

['stackoverflow', 'questions', '4585255', 'contain', ...

Answer 3

蟒蛇

 import fileinput
 N = 5
 for line in fileinput.input():
     for word in line.split():
         if len(word) > N:
              print word

Answer 4

import re; [s for s in re.findall(r"\w+", open(filename, "r").read()) if len(s) >= N]

Answer 5

输出的单词长度大于5，且行号

awk -F ' ' '{for(i=1;i<=NF;i++){ if(length($i)>=6) print NR, $i }}' your_file

Answer 6

您可以使用简单的grep，但它将返回整行：

grep '[^ ]\{N\}'

其中N是您的电话号码。

我不知道如何在grep或awk中获得单个单词，但是在Python中很简单：

import re
f = open(filename, 'r')
text = f.read()
big_words = re.findall('[^ ]{N,}', s)

同样，N是您的电话号码。 big_words将是包含您的单词的列表。

Answer 7

在此示例中，将5替换为您要查找的长度。 第二个示例将其显示为一个函数

1）

>>> import re
>>> filename = r'c:\temp\foo.txt'
>>> re.findall('\w{5}', open(filename).read())
['Lorem', 'ipsum', 'dolor', 'conse', 'ctetu', 'adipi', 'scing', 'digni', 'accum', 'congu', ...]

2）

def FindAllWordsLongerThanN(n=5, file='foo.txt'):
    return re.findall('\w{%s}' % n, open(file).read())

FindAllWordsLongerThanN(7, r'c:\temp\foo.txt')

Answer 8

re.findall(r'\w'*N+r'\w+',txt)

Answer 9

尝试这个：

N = 5 #Threshold
f = open('test.txt','r')
try:
  for line in f.xreadlines():
    print " ".join([w for w in line.split() if len(w) >= N])
finally:
  f.close()

Answer 10

为了完整性（尽管在这种情况下，regexp解决方案可能更好）：

>>> from string import punctuation
>>> with open('foreword.rst', 'rt') as infile:
...    for line in infile:
...       for x in line.split():
...           x = x.strip(punctuation)
...           if len(x) > 5:
...              print x

假设您的意思是“过滤器”，即每个单词应打印几次。 如果您只想每个单词一次，我可以这样做：

>>> from string import punctuation
>>> result = set()
>>> with open('foreword.rst', 'rt') as infile:
...    for line in infile:
...       for x in line.split():
...           x = x.strip(punctuation)
...           if len(x) > 5:
...              if x not in result:
...                  result.add(x)
...                  print x

Answer 11

你好，我相信这是具有lambda函数的不错的solutino。 第一个参数是N

import sys
import os
def main():
    p_file = open("file.txt")
    t= lambda n,s:filter(lambda t:len(t)>n,s.split())
    for line in p_file:
        print t(3,line)
if __name__ == '__main__':
    main()

Answer 12

纯重击：

N=10; set -o noglob; for word in $(<inputfile); do ((${#word} > N)) && echo "$word"; done; set +o noglob

如果输入文件不包含任何通配符（ * ， ? ， [ ），则可以省略set命令。

如何过滤包含N个或更多字符的所有单词？

问题描述

12 个解决方案

解决方案1
12 已采纳 2011-01-03 14:35:06

解决方案2
2 2011-01-03 14:37:09

解决方案3
2 2011-01-03 14:40:12

解决方案4
2 2011-01-03 14:43:40

解决方案5
2 2011-01-03 14:44:55

解决方案6
1 2011-01-03 14:38:27

解决方案7
1 2011-01-03 14:39:22

解决方案8
1 2011-01-03 14:40:34

解决方案9
0 2011-01-03 14:42:03

解决方案10
0 2011-01-03 14:50:42

解决方案11
0 2011-01-03 15:14:50

解决方案12
0 2011-01-03 17:24:16

如何过滤包含N个或更多字符的所有单词？

问题描述

12 个解决方案

解决方案1 12 已采纳 2011-01-03 14:35:06

解决方案2 2 2011-01-03 14:37:09

解决方案3 2 2011-01-03 14:40:12

解决方案4 2 2011-01-03 14:43:40

解决方案5 2 2011-01-03 14:44:55

解决方案6 1 2011-01-03 14:38:27

解决方案7 1 2011-01-03 14:39:22

解决方案8 1 2011-01-03 14:40:34

解决方案9 0 2011-01-03 14:42:03

解决方案10 0 2011-01-03 14:50:42

解决方案11 0 2011-01-03 15:14:50

解决方案12 0 2011-01-03 17:24:16

解决方案1
12 已采纳 2011-01-03 14:35:06

解决方案2
2 2011-01-03 14:37:09

解决方案3
2 2011-01-03 14:40:12

解决方案4
2 2011-01-03 14:43:40

解决方案5
2 2011-01-03 14:44:55

解决方案6
1 2011-01-03 14:38:27

解决方案7
1 2011-01-03 14:39:22

解决方案8
1 2011-01-03 14:40:34

解决方案9
0 2011-01-03 14:42:03

解决方案10
0 2011-01-03 14:50:42

解决方案11
0 2011-01-03 15:14:50

解决方案12
0 2011-01-03 17:24:16