从目录/子目录中递归地从文件（带有模式）中提取唯一行

Question

我有一个巨大的java代码库（超过10,000个java类），它广泛使用CORBA（虽然没有关于其用法的文档）。

作为计算CORBA用法的第一步，我决定扫描整个代码库并提取/打印包含模式“ org.omg.CORBA ”的唯一行。 这些通常在import语句中（例如import org.omg.CORBA.xyz）。

我是Perl的新手，想知道我是否有办法在Windows操作系统上提取这些细节。 我需要能够扫描具有java类的所有文件夹（和子文件夹）。

Answer 1

你可以在一行中使用File :: Find ：

perl -MFile::Find -lwe "
    find(sub { if (-f && /\.java$/) { push @ARGV,$File::Find::name } },'.'); 
    while(<>) { /org.omg.CORBA/ && $seen{$_}++; }; 
    print for keys %seen;"

请注意，此单行使用Windows所需的双引号。

这将以递归方式搜索当前目录以查找扩展名为.java文件，并将它们添加到@ARGV数组中。 然后我们使用菱形运算符打开文件并搜索字符串org.omg.CORBA ，如果找到，则将该行添加为%seen hash的键，这将有效地删除重复项。 最后一个语句打印出哈希中的所有唯一键。

在脚本形式中，它看起来像这样：

use strict;
use warnings;
use File::Find;

find(sub { if (-f && /\.java$/) { push @ARGV,$File::Find::name } },'.');
my %seen;
while(<>) {
    /org.omg.CORBA/ && $seen{$_}++; 
}
print "$_\n" for keys %seen;"

Answer 2

只是为了好玩，perl单行代码来做到这一点：

perl -lne '/org.omg.CORBA/ and (++$seen{$_}>1 or print)' *

这首先检查一行是否匹配，然后检查它是否在打印出行之前没有看到它。 这是针对指定的所有文件（在本例中为'*'）完成的。

Answer 3

我不是故意反对，但我不确定perl是最好的解决方案。 nhahtdh建议使用cygwin是一个很好的建议。 grep或find真的是你想要的。 在这个例子中使用perl将涉及使用File :: Find ，然后在每个文件上打开文件句柄。 这肯定是可行的，但是，如果可能的话，我建议使用正确的工具来完成工作。

find . -name "*.java" -type f | xargs grep -l 'org.com.CORBA' | sort | uniq

如果你真的必须使用perl来完成这项工作，我们可以处理File :: Find代码。

从目录/子目录中递归地从文件（带有模式）中提取唯一行

问题描述

3 个解决方案

解决方案1
4 已采纳 2012-06-14 15:57:28

解决方案2
2 2012-06-14 14:20:37

解决方案3
2 2012-06-14 14:41:18

从目录/子目录中递归地从文件（带有模式）中提取唯一行

问题描述

3 个解决方案

解决方案1 4 已采纳 2012-06-14 15:57:28

解决方案2 2 2012-06-14 14:20:37

解决方案3 2 2012-06-14 14:41:18

解决方案1
4 已采纳 2012-06-14 15:57:28

解决方案2
2 2012-06-14 14:20:37

解决方案3
2 2012-06-14 14:41:18