Java获得HTML的特定部分

Question

我正在遍历HTML的负载，并且试图提取我需要的部分。

我只需要从下面的html中获取“ THISISTHEBITIWANT”即可。

<li class="aClass">
  <a href="example/THISISTHEBITIWANT">example</a>
</li>

<li class="aClass">
  <a href="example/THISISTHEBITIWANT">example2</a>
</li>

每次我只想获取“ THISISTHEBITIWANT”，链接中的文本就会更改。 我已经看过字符串替换-但由于我不知道每次都使用“ example”或“ example2”，因此目前只能删除直到“ example /”。

这是我的Java代码：

html = inputLine.replace("<li class=\"aClass\"><a href=\"/example/", "");

如果有人可以提供任何建议，将不胜感激！

Answer 1

虽然处理HTML的标准方法是使用HTML解析库，但正如两个注释所暗示的那样，如果您真的只对获取想要的内容感兴趣，那么使用正则表达式就足够了。

import java.util.regex.*;


public class Regular{
    public static void main(String[] args) {
        String original =  "<li class=\"aClass\">\n<a href=\"example/THISISTHEBITIWANT\">example2</a>\n</li>";
        Pattern mypattern = Pattern.compile("<li class=\"aClass\">\\s+<a href=\"example/([^\"]+)\"");
        Matcher matcher = mypattern.matcher(original);
        while (matcher.find()) {
            System.out.println(matcher.group(1));
        }
    }
}

Java获得HTML的特定部分

问题描述

1 个解决方案

解决方案1
0 2014-03-31 19:17:35

Java获得HTML的特定部分

问题描述

1 个解决方案

解决方案1 0 2014-03-31 19:17:35

解决方案1
0 2014-03-31 19:17:35