[英]Retrieving Reviews from Amazon using JSoup
我正在使用JSoup從Amazon中的特定網頁檢索評論,而我現在所擁有的是:
Document doc = Jsoup.connect("http://www.amazon.com/Presto-06006-Kitchen-Electric-Multi-Cooker/product-reviews/B002JM202I/ref=sr_1_2_cm_cr_acr_txt?ie=UTF8&showViewpoints=1").get();
String title = doc.title();
Element reviews = doc.getElementById("productReviews");
System.out.println(reviews);
這給了我帶有評論的html塊,但是我只想要沒有所有標簽div等的文本。然后我想將所有這些信息寫入文件。 我怎樣才能做到這一點? 謝謝!
使用text()
方法
System.out.println(reviews.text());
雖然text()
將為您提供大量文本,但是您將需要首先使用jsoup的select(...)
方法將問題細分為單獨的審閱元素。 我將給您第一個大部門,但您可以進一步細分:
public static List<Element> getReviewList(Element reviews) {
List<Element> revList = new ArrayList<Element>();
Elements eles = reviews.select("div[style=margin-left:0.5em;]");
for (Element element : eles) {
revList.add(element);
}
return revList;
}
如果分析每個元素,您應該看到亞馬遜如何進一步細分所保存的信息,包括評論的標題,評論的日期和其正文的內容。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.