我对使用Jsoup和Java进行html解析有一点怀疑。

考虑这个HTML部分

<a href="/path/page1.html">Page1</a>
<a href="/joe/jeo.html">joe</a>
<a href="/path/page2.html">Page2</a>
<a href="/harry/harry.html">harry</a>
<a href="/mike/mike.html">mike</a>
<a href="/path/page3.html">Page3</a>

我只需要使用Jsoup提取Page1,Page2和Page3。 页面唯一的共同点是href值的“路径”。 有人知道如何通过href值中的“包含”来选择文本吗?

谢谢!

===============>>#1 票数:0

在选择器上使用正则表达式:

doc.select("a[href~=(?i)(path)]");

尝试这个:

Document doc;
         String userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0";
        try {

            // need http protocol
            doc = Jsoup.connect("http://domain.tld/page.html").userAgent(userAgent).get();


            Elements links = doc.select("a[href~=(?i)(path)]");
            for (Element link: links ) {


                System.out.println("\nLink with path: " + link.toString());

            }

        } catch (IOException e) {
            e.printStackTrace();
        }

  ask by user3540947 translate from so

未解决问题?本站智能推荐:

1回复

Jsoup - 从href属性中选择值

HTML代码(不是来自我的网站,所以我无法改变它)看起来像这样: 这是我的代码: 输出如下: 我真正需要的是一个包含Urls的ArrayList ,也可能是一个包含Titles的独立ArrayList 。 有人可以帮我吗?
1回复

用于将href +目标文本转换为字符串的Jsoup选择器语法

回答另一个问题的建议是,最好在我的Android项目中使用JSoup来解析以下对Web调用的响应: 我需要从此响应中提取两位并将其存储在两个字符串中。 我也知道响应将始终采用上面显示的格式。 我需要href网址,但不需要img src网址,因此我认为我应该查找href=\\'和'之间
1回复

JSoup根据ID选择Div,根据标题选择href

我正在使用JSoup解析HTML响应。 我有多个Div标签。 我必须根据ID选择Div标签。 我的伪代码看起来像这样, 其中navDiv是ID。 但这似乎不起作用。 我也想根据某些标题在Div内选择Href,其中hrefTitle []是字符串数组。 因此,在迭代hr
3回复

选择特定div标签中存在的href

我需要选择div标签中存在的锚标签,其中id = content。 我在Java中使用了以下代码 但是当我调试程序lin = Null时。 我也尝试了以下代码,但是lin仍然为空。 这是我的HTML: 任何帮助将不胜感激。谢谢
1回复

如何在Android中为文本添加href链接?

我正在使用jsoup抓取一些Web数据,并且可以以不同的方式获取链接和文本。 我想使用我获取的链接为这些文本创建超链接。 我是Android开发的新手,所以我不知道如何实现它或确切寻找什么。 以下是我尝试过的示例代码: 我希望文本可点击,它应该重定向到应用程序的链接。
3回复

无法在href(jSoup)中返回文本

这是我用来从html片段下方访问“测试”的代码片段。 如何从html中访问URL https://www.google.com ?
2回复

如何使用选择器获取href元素?

我正在使用它从该网站获取商品并返回到列表。 这是每个项目的html 每个项目都有相同的模式,但我想知道我是否也可以检索每个项目的网址。 你们可能需要查看html的源代码,以获得更好的主意。 但是我想将每个项目的URL存储在一个字符串中。
1回复

Jsoup在href中返回特定值

我有一些需要从中提取值的html,我不知道如何使用jsoup来获取它。 下面是摘录的摘要。 我预计要遍历并提取的元素不止一个: 我需要检索的内容包含在括号内,而值包含在单引号内。 例如,我第一次通过的预期结果是返回R_195 我的第二遍是/ action / report
2回复

在Java中用撇号提取href值

我是JSoup的新用户。 我想从HTML提取href值。 例如: 我得到的输出为"http://exa" ,但我需要的输出为"http://exa'mple.com" (href中的原始文本)。 link.outerHtml()提供了一些不同的文本。 我无法更改HTML。
2回复

在jsoup中的td标记内提取href值

我有 我想提取我使用的所有行的URL和文本 我得到text1值但url为null。 如何从td标签中获取网址?