簡體   English   中英

使用jsoup解析給定文件中的鏈接

[英]parsing links from given file using jsoup

我正在使用Jsoup解析存儲在文件系統中的xml文件,但是當我解析link元素時會更改其范圍...

XML檔案:-

<movies>
    <movie>
        <id>0</id>
        <name>Aag - 1948</name>
         <link>http://www.songspk.pk/indian/aag_1948.html</link>
    </movie>
    <movie>
        <id>1</id>
        <name></name>
         <link>#</link>
    </movie>
    <movie>
        <id>2</id>
        <name>Aa Ab Laut Chalain</name>
         <link>http://www.songspk.pk/aa_ab_laut_chalein.html</link>
    </movie>
    <movie>
        <id>3</id>
        <name>Aag - RGV Ki Aag</name>
         <link>http://www.songspk.pk/aag.html</link>
    </movie>
</movies>

Java實現:

public class DownloadSongsList {

private static Document document;

public static void main(String...string) throws IOException{
    document = Jsoup.parse(new File("c:/movies.xml"), "UTF-8");

    Elements movies = document.getElementsByTag("movies");

    System.out.println(movies.html());


}

}

輸出: -

<movie> 
 <id>
  0
 </id> 
 <name>
  Aag - 1948
 </name> 
 <link /> http://www.songspk.pk/indian/aag_1948.html  
</movie> 
<movie> 
 <id>
  1
 </id> 
 <name></name> 
 <link /># 
</movie> 
<movie> 
 <id>
  2
 </id> 
 <name>
  Aa Ab Laut Chalain
 </name> 
 <link />http://www.songspk.pk/aa_ab_laut_chalein.html 
</movie> 
<movie> 
 <id>
  3
 </id> 
 <name>
  Aag - RGV Ki Aag
 </name> 
 <link />http://www.songspk.pk/aag.html 
</movie>

我想解析鏈接,但是由於這個問題而無法獲取。 而且我想堅持使用Jsoup,因為我使用相同的庫來創建以下xml文件...

您是否嘗試過使用Parser.xmlParser()

例:

Document doc = Jsoup.parse(new File("c:/movies.xml"), "", Parser.xmlParser());
Elements movies = doc.getElementsByTag("movies");
System.out.println(movies.html());

應該輸出:

<movie> 
 <id>
  0
 </id>
 <name>
  Aag - 1948
 </name>
 <link>
  http://www.songspk.pk/indian/aag_1948.html
 </link> 
</movie>
<movie> 
 <id>
  1
 </id> 
 <name></name> 
 <link>
  #
 </link> 
</movie> 
<movie> 
 <id>
  2
 </id> 
 <name>
  Aa Ab Laut Chalain
 </name> 
 <link>
  http://www.songspk.pk/aa_ab_laut_chalein.html
 </link> 
</movie> 
<movie> 
 <id>
  3
 </id> 
 <name>
  Aag - RGV Ki Aag
 </name> 
 <link>
  http://www.songspk.pk/aag.html
 </link> 
</movie>

因此,您可以正常提取<link>標記:

Elements links = doc.getElementsByTag("link");

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM