簡體   English   中英

使用JSoup從Amazon檢索評論

[英]Retrieving Reviews from Amazon using JSoup

我正在使用JSoup從Amazon中的特定網頁檢索評論,而我現在所擁有的是:

    Document doc = Jsoup.connect("http://www.amazon.com/Presto-06006-Kitchen-Electric-Multi-Cooker/product-reviews/B002JM202I/ref=sr_1_2_cm_cr_acr_txt?ie=UTF8&showViewpoints=1").get();
    String title = doc.title();

    Element reviews = doc.getElementById("productReviews");
    System.out.println(reviews);

這給了我帶有評論的html塊,但是我只想要沒有所有標簽div等的文本。然后我想將所有這些信息寫入文件。 我怎樣才能做到這一點? 謝謝!

使用text()方法

System.out.println(reviews.text());

雖然text()將為您提供大量文本,但是您將需要首先使用jsoup的select(...)方法將問題細分為單獨的審閱元素。 我將給您第一個大部門,但您可以進一步細分:

public static List<Element> getReviewList(Element reviews) {
  List<Element> revList = new ArrayList<Element>();
  Elements eles = reviews.select("div[style=margin-left:0.5em;]");
  for (Element element : eles) {
     revList.add(element);
  }
  return revList;
}

如果分析每個元素,您應該看到亞馬遜如何進一步細分所保存的信息,包括評論的標題,評論的日期和其正文的內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM