簡體   English   中英

使用JSOUP從網頁檢索有用的信息

[英]retrieve useful info from webpage using JSOUP

如何從JAVA頁面的“頁腳”部分中的任何網頁檢索“與我們聯系”鏈接。

例如,找到頁腳元素,或具有id =“ footer”或具有頁腳類的元素?

我曾嘗試使用JSOUP檢索網頁中的所有鏈接,然后在其中運行regex .*contact.* 但是,我不能100%確定從此方法獲取的鏈接是網站的“與我們聯系”頁面。

Q2

還有其他健壯的方法嗎?或者我可以同時使用頁腳鏈接和已經完成的方法來推斷某個頁面是否一定是與我們聯系的頁面?

但是我不能100%確定所獲取的鏈接...

短答案

您永遠不會確定。


長答案

對於給定的隨機HTML頁面,您想找到“聯系我們”鏈接。 這種工作對人類來說是微不足道的。 對於計算機來說,這是一個巨大的挑戰。

在您的情況下,我可以看到一些選擇:

選項1:眾包

  • 獲取您想要的“聯系我們”信息的所有網站網址
  • 將他們發送到人群服務平台,要求真實的人為您找到信息(Rapidworkers.com,Crowdsource.com,Clickworker.com,Amazon Mechanical Turk,microworkers.com)

檢查平台是否提供API。

+ work done by human
+ dynamically adapt to unknown pattern
- cost money
- We suck at repetitive tasks

選項2: IA(專利檢索)

  • 訓練IA以提取信息
  • 然后通過它您的網站

看一下WekaJava-ML

+ Automated task
+ Can perform a repetitive task long time
- May take time to built a robust solution
- Risk of false positive or complete miss

選項3:使用Jsoup

  • 仔細研究您所定位的網站的模式
  • 告訴Jsoup查找您檢測到的模式

此選項是一個永無止境的任務。 您必須始終為Jsoup提供新的模式。 我建議您有一個監視系統,告訴您網站何時逃脫任何已知的模式。

+ Automated task
+ Can perform a repetitive task long time
- Take time for studying, discovering, adding new patterns
- Risk of false positive or complete miss

選項4:以上三個選項的混合

您可以在目標網站上使用三個選項。

+ Reduce chances of false positive or complete misses
+ More confident final result
- Take time for studying, discovering, adding new patterns
- Cost money

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM