繁体   English   中英

自定义Java中字符串数组的解析

[英]Customize parsing for string array in Java

我有一个这样的字符串数组(来自Twitter):

String str= "The Green New Deal is viable. It is the same vision that FDR had for his New Deal programs: nationwide mobilization http://94739 #thegreendeal #nationwide"

我想要的是1)将此字符串转换为数组,2)删除停用词并包含词干3)删除除“#”(表示术语是主题标签)以外的所有字符。

因此,我尝试使用这个很酷的库https://github.com/uttesh/exude ,它确实阻止并删除了停用词,并小写并删除了字符。 问题在于这会删除主题标签。 代码如下:

String tweetString = ExudeData.getInstance().filterStoppingsKeepDuplicates(str);

我也尝试过这个:

String[] wordArray = str.replaceAll("[^a-zA-Z ]", "").toLowerCase().split("\\s+");

但这也删除了标签。 使用这两种方法保留主题标签的任何解决方法? (我更愿意为此保留渗出库)

使用regex方法,您可以尝试在不应该删除的字符列表中添加# ,如下所示:

        String[] wordArray = str.replaceAll("[^a-zA-Z #]", "").toLowerCase().split("\\s+");

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM