繁体   English   中英

从 Java 文本文件中查找短语

Find phrases from a text file in Java

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

目标是我正在阅读文本文件并找到要替换的某些单词。 然后它将替换单词并输出一个替换单词的新文本文件。 我的代码适用于单个单词,但如果我尝试用空格替换短语,则不起作用。 我拥有的是一个 HashMap,其中包含我需要在文件中搜索的内容。

 HashMap<String, Integer> hm = new HashMap<>();

            hm.put("null",0);
            hm.put("max",1);
            hm.put("Do not repeat",2);
            hm.put("names",3);

然后我遍历 HashMap 并用单词替换字符串,如果文件包含它。

                    for (String key : hm.keySet()) {
                        String check = key;
                        System.out.println(check);

                        text = text.toLowerCase(Locale.ROOT).replaceAll(check, "WRONG");
                    }
                    String new = text;

如果我在“不要重复”这样的词中有空格,这将不起作用。 我怎样才能让它适用于短语而不仅仅是单个单词? 它完全跳过短语并输出仅替换单个单词的新文件。

1 个回复

这与空格无关,而是因为大写的 D。

text.toLowerCase(Locale.ROOT)

将生成一个仅包含小写字母的字符串,因此在其中找不到"Do not repeat"

您可以通过传递适当的标志使replaceAll不区分大小写:

text = text.replaceAll("(?i)" + check, "WRONG");

请注意,您可能会遇到正在搜索的字符串中的元字符问题。 如果您可能包含带有例如句点 ( . ) 的内容,您应该引用check

text = text.replaceAll("(?i)" + Pattern.quote(check), "WRONG");

此外,因为您没有考虑单词边界,所以您可能会遇到Scunthorpe 问题

1 从Java中的文本文件中提取短语

我正在使用ADFA-LD数据集进行基于主机的入侵检测项目,现在正在进行特征提取模块。 我构建了由长度为4的系统调用短语组成的短语词典。现在,为了进行特征提取,我需要将这些短语与新的系统调用轨迹进行比较(以下是一些示例): 。 我需要的是,如何将这些短语与新痕迹进行比较。 我在用J ...

2014-10-08 07:01:37 1 435   java
2 使用python从一个文本文件中查找短语在另一个文本文件中

我有一个文件是短语列表,每行一个短语。 另一个文件没有任何定界,只是一个巨大的单词文本文件。 我想在第二个文件中搜索短语,如果找到它们,则打印该短语。 这是我到目前为止的代码。 不过,这并没有为我打印任何内容。 编辑:我将代码更改为此: 现在我得到了匹配的短语。 但 ...

2015-07-08 21:06:51 2 966   python
3 如何在文本文件中查找短语

我的文本文件是这样的: 我的代码是这样的: 到目前为止,我已经在尝试找出如何为文件中的所有数字,单词和小数创建列表。 我听说您可以使用split方法,所以我尝试了以下方法: 我这样做是假设它每次遇到一个空间都会分裂,但这没有发生,我只是报错: 任何帮助,将不胜感 ...

4 如何从文本文档中查找常用短语

我有一个带有很多注释/句子的文本文件,并且我想以某种方式找到在文档本身中重复的最常见的短语。 我试着用NLTK稍微摆弄一下,发现了这个线程: 如何从一系列文本输入中提取常用/重要短语 但是,尝试之后,我得到如下奇怪的结果: 在另一个很常见的短语“这很有趣”的文件中,我得到了一个空 ...

5 从Java中的给定文本中提取阿拉伯语短语

您能帮我找到一个包含短语列表的正则表达式,请检查给定文本中是否存在这些短语之一? 例: 如果我在hashSet包含以下单词: 给定的文本是: كيف الحال أتمنى أن تكون بخير 我想在执行正则表达式后得到: كيف الحال 我的初始代码: ...

6 在文本中查找常用短语

有没有办法用Lucene搜索常用短语? 我正在成功搜索频繁的单词: 但这带来了单个单词,我正在寻找一种搜索频繁的两个(或任意数量)单词组合的方法。 为了澄清,我不是在寻找我所知道的前两个词(例如,快速和汽车),而是寻找前两个常用词的组合。 因此,如果我的文字是“这是一辆快车 ...

2015-07-30 14:44:33 1 93   lucene
8 从文字中排除词组

假设我有这样一句话: 以及带有短语的列表: 是否可以从文本中排除以下短语以获得: 我以前使用过过滤器,但仅使用单个词而不是短语 ...

10 在关键短语之间查找文本

我有一个变量,其中包含一些文本: 我试图通过var解析以获取所有不同的元素类型,这是我到目前为止所拥有的: 但这只是给我这部分: 任何帮助将不胜感激。 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM