簡體   English   中英

Jsoup如何從HTML獲取值

[英]Jsoup how to get values from html

因此,我試圖從此鏈接中獲取特定信息: https : //myanimelist.net/anime/31988/Hibike_Euphonium_2

我不太了解html,所以對我來說有點難。

我正在專門從這里獲取信息:

<div>
    <span class="dark_text">Studios:</span>
          <a href="/anime/producer/2/Kyoto_Animation" title="Kyoto Animation">Kyoto Animation</a>  </div>

<div class="spaceit">

我要嘗試做的是搜索顯示“工作室”的內容,然后獲取href鏈接的標題(京都動畫)。

因此,我已經設法做到了:

Document doc = Jsoup.connect("https://myanimelist.net/anime/31988/Hibike_Euphonium_2").get();

        Elements studio = doc.select("a[href][title]");
        for(Element link : studio){
            System.out.println(link.attr("title"));
        }

它的輸出是這樣的:

Lantis
Pony Canyon
Rakuonsha
Ponycan USA
Kyoto Animation
Drama
Music
School
Kyoto Animation
Go to the Last Post
Go to the Last Post
Anime You Should Watch Before Their Sequels Air This Fall 2016 Season
Collection
Follow @myanimelist on Twitter

它應該是

doc.select("span:contains(Studios) + a[href][title]");

我假設span是列表標題的通用元素。

因此,基本上,此選擇器獲取包含text Studios所有span元素,然后獲取1 a具有屬性hreftitle屬性的1級子元素

以防萬一,給定的選擇器將只選擇一個鏈接,並且span可能更大

*:contains(Studio) > a[title]

這意味着-走好每a具有元素title屬性,是包含測試任何(*)元素的直接子 Studio 包含也考慮了降序子級的所有文本。 對於特定元素的文本,使用:textOwn

未經測試,但是類似的東西

    ...
    Elements studio = doc.select("a[@title='Kyoto Animations']");
    ...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM