[英]Jsoup how to get values from html
因此,我試圖從此鏈接中獲取特定信息: https : //myanimelist.net/anime/31988/Hibike_Euphonium_2
我不太了解html,所以對我來說有點難。
我正在專門從這里獲取信息:
<div>
<span class="dark_text">Studios:</span>
<a href="/anime/producer/2/Kyoto_Animation" title="Kyoto Animation">Kyoto Animation</a> </div>
<div class="spaceit">
我要嘗試做的是搜索顯示“工作室”的內容,然后獲取href鏈接的標題(京都動畫)。
因此,我已經設法做到了:
Document doc = Jsoup.connect("https://myanimelist.net/anime/31988/Hibike_Euphonium_2").get();
Elements studio = doc.select("a[href][title]");
for(Element link : studio){
System.out.println(link.attr("title"));
}
它的輸出是這樣的:
Lantis
Pony Canyon
Rakuonsha
Ponycan USA
Kyoto Animation
Drama
Music
School
Kyoto Animation
Go to the Last Post
Go to the Last Post
Anime You Should Watch Before Their Sequels Air This Fall 2016 Season
Collection
Follow @myanimelist on Twitter
它應該是
doc.select("span:contains(Studios) + a[href][title]");
我假設span
是列表標題的通用元素。
因此,基本上,此選擇器獲取包含text Studios
所有span
元素,然后獲取1 a
具有屬性href
和title
屬性的1級子元素
以防萬一,給定的選擇器將只選擇一個鏈接,並且span
可能更大
*:contains(Studio) > a[title]
這意味着-走好每a
具有元素title
屬性,是包含測試任何(*)元素的直接子 Studio
。 包含也考慮了降序子級的所有文本。 對於特定元素的文本,使用:textOwn
。
未經測試,但是類似的東西
...
Elements studio = doc.select("a[@title='Kyoto Animations']");
...
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.