簡體   English   中英

從網頁提取文字

[英]text extraction from web pages

我正在開發一個程序,該程序讀取以下頁面的內容: http : //www.pogdesign.co.uk/cat/ ,當我最喜歡的電視連續劇之一計划在何時以及每月的哪一天發出通知。 在此程序中,我還希望有一個顯示所有月份的JFrame (也許是JTabbedPane ),並且每個月我都希望列出我最喜歡的電視系列的所有劇集以及該月的相對日期。

我已經使用“ jsoup:Java HTML Parser ”編寫了一些東西,以便從html網頁提取文本。 我需要了解使用哪種方法來執行以下步驟:

  1. 查找安排特定電視劇集的每月計划,並將其保存在某處。
  2. 獲取這些情節a ref鏈接,並使用它們找到每個情節的廣播時間並將其保存在某處。

那么,您認為做這樣的事情的好策略是什么? Java HTML分析器足以完成這樣的程序嗎?

首先,我建議您獲取具有要查找的標題的項目的列表,然后使用parent()方法(JSOUP)一步了解相對日期。

我認為您可以使用Jsoup輕松實現。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM