在 Jsoup 中使用選擇進行網頁抓取

Question

我是網絡抓取的新手，我的限制是能夠在 IMDB 中抓取頁面的標題

我現在正在使用這個：

String contentText = doc.select("title").first().text();

產生字符串： Thor: The Dark World (2013) - IMDb

如果有人可以幫助我，我正在嘗試將標題和年份作為單獨的字符串：

《雷神：黑暗世界》《 2013 》

提前致謝！

Answer 1

String docTitle = doc.select("title").first().text();
String movieName = docTitle.substring(0,docTitle.indexOf("("));
int movieReleaseDate = Integer.parseInt(docTitle.substring(docTitle.indexOf("(")+1,
                                             docTitle.indexOf(")")));

Answer 2

好吧，如果您查看此頁面的源代碼，您將在文檔的下方看到以下內容：

<h1 class="header">
<span class="itemprop" itemprop="name">Thor: The Dark World</span> 
<span class="nobr">(<a href="/year/2013/?ref_=tt_ov_inf" >2013</a>)</span>    
</h1>

因此，您似乎無需任何進一步的黑客攻擊即可獲得所需的文本。

在 Jsoup 中使用選擇進行網頁抓取

問題描述

2 個解決方案

解決方案1
0 2013-10-17 21:24:35

解決方案2
0 已采納 2013-10-17 21:46:21

在 Jsoup 中使用選擇進行網頁抓取

問題描述

2 個解決方案

解決方案1 0 2013-10-17 21:24:35

解決方案2 0 已采納 2013-10-17 21:46:21

解決方案1
0 2013-10-17 21:24:35

解決方案2
0 已采納 2013-10-17 21:46:21