簡體 English 中英

從網頁提取文字

[英]text extraction from web pages

原文 2013-07-15 15:30:19 9 1 java/ url/ html-parsing

我正在開發一個程序，該程序讀取以下頁面的內容： http : //www.pogdesign.co.uk/cat/ ，當我最喜歡的電視連續劇之一計划在何時以及每月的哪一天發出通知。 在此程序中，我還希望有一個顯示所有月份的JFrame （也許是JTabbedPane ），並且每個月我都希望列出我最喜歡的電視系列的所有劇集以及該月的相對日期。

我已經使用“ jsoup：Java HTML Parser ”編寫了一些東西，以便從html網頁提取文本。 我需要了解使用哪種方法來執行以下步驟：

查找安排特定電視劇集的每月計划，並將其保存在某處。
獲取這些情節a ref鏈接，並使用它們找到每個情節的廣播時間並將其保存在某處。

那么，您認為做這樣的事情的好策略是什么？ Java HTML分析器足以完成這樣的程序嗎？

1 個解決方案

首先，我建議您獲取具有要查找的標題的項目的列表，然后使用parent（）方法（JSOUP）一步了解相對日期。

我認為您可以使用Jsoup輕松實現。

從網頁上提取一般文章

[英]Generic Article Extraction from web pages

JSoup核心Web文本提取

[英]JSoup core web text extraction

從HTML頁面提取基於XPATH的內容

[英]XPATH based content extraction from html pages

從HTML Java中提取文本

[英]Text Extraction from HTML Java

從文本中提取協議特征

[英]Agreement feature extraction from a text

從Jmeter中的圖像中提取文本

[英]Extraction of text from Image in Jmeter

如何使PDF文本提取正常工作？

[英]How to get text extraction from PDF to work?

java-從文本提取中省略特殊字符

[英]java - omitting special characters from text extraction

Java - 使用 OCR 從 PDF 中提取文本

[英]Java - Text Extraction from PDF using OCR

使用Java從圖像中提取文本

[英]Text Extraction from an Image Using java

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 從網頁上提取一般文章 JSoup核心Web文本提取從HTML頁面提取基於XPATH的內容從HTML Java中提取文本從文本中提取協議特征從Jmeter中的圖像中提取文本如何使PDF文本提取正常工作？ java-從文本提取中省略特殊字符 Java - 使用 OCR 從 PDF 中提取文本使用Java從圖像中提取文本

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM