簡體   English   中英

從網頁上提取一般文章

[英]Generic Article Extraction from web pages

我將開始我的文章提取工作。

我要做的任務是提取發布在不同網頁上的酒店評論(例如1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html,2 。http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html

我需要在Java中完成任務,僅在過去的幾個月中,我就在使用Java。

這是我關於這些的問題。

  1. 是否有可能以通用方式從不同的網頁中單獨提取評論。

  2. 請讓我知道是否有支持Java任務的API。

  3. 另外,請告訴我您的想法/資料,這對我完成上述任務會有所幫助。

UPDATE

如果網上有任何相關示例,請張貼相同的示例,因為這可能很有用。

您可能需要用於Java的屏幕抓取實用程序,例如TagSoupNekoHTML JSoup也很流行。

但是,從Tripadvisor之類的第三方網站提取數據時,您在法律上也有更大的考慮。 他們的政策允許嗎?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM