[英]How can I get specific text from a webpage
我已经在stackoverflow和google上寻找这个问题的答案,无法真正找到我想要的东西。
当我想用这个代码从页面中检索数据时,就像这个一样
public class ConsoleSearch {
public static void main(String[] args) throws IOException {
URL url = new URL("http://www.stackoverflow.com");
URLConnection cnt = url.openConnection();
BufferedReader br = new BufferedReader(new InputStreamReader
(cnt.getInputStream()));
String content;
while((content = br.readLine()) != null){
System.out.println(content);
}
br.close();
}
}
我显然得到了HTML标签以及随附的所有其他内容。 我可以使用HtmlCleaner
轻松过滤HTML。我想要从所有检索到的数据中检索特定文本时,我发现自己陷入HtmlCleaner
的具有挑战性的部分。
例如,如果我只想检索文本“新斯科舍省”和/或“欧洲”......我该怎么做?
Pattern p = Pattern.compile("Nova Scotia");
Matcher m = p.matcher(content);
boolean b = m.matches();
只需查看上面的正则表达式包,它将对您有所帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.