[英]Using select for web scraping in Jsoup
我是網絡抓取的新手,我的限制是能夠在 IMDB 中抓取頁面的標題
我現在正在使用這個:
String contentText = doc.select("title").first().text();
產生字符串: Thor: The Dark World (2013) - IMDb
如果有人可以幫助我,我正在嘗試將標題和年份作為單獨的字符串:
《雷神:黑暗世界》《 2013 》
提前致謝!
String docTitle = doc.select("title").first().text();
String movieName = docTitle.substring(0,docTitle.indexOf("("));
int movieReleaseDate = Integer.parseInt(docTitle.substring(docTitle.indexOf("(")+1,
docTitle.indexOf(")")));
好吧,如果您查看此頁面的源代碼,您將在文檔的下方看到以下內容:
<h1 class="header">
<span class="itemprop" itemprop="name">Thor: The Dark World</span>
<span class="nobr">(<a href="/year/2013/?ref_=tt_ov_inf" >2013</a>)</span>
</h1>
因此,您似乎無需任何進一步的黑客攻擊即可獲得所需的文本。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.