[英]How to retrieve a specific table from webpage using Jsoup [ Android ]
[英]retrieve useful info from webpage using JSOUP
如何從JAVA頁面的“頁腳”部分中的任何網頁檢索“與我們聯系”鏈接。
例如,找到頁腳元素,或具有id =“ footer”或具有頁腳類的元素?
我曾嘗試使用JSOUP檢索網頁中的所有鏈接,然后在其中運行regex .*contact.*
。 但是,我不能100%確定從此方法獲取的鏈接是網站的“與我們聯系”頁面。
Q2
還有其他健壯的方法嗎?或者我可以同時使用頁腳鏈接和已經完成的方法來推斷某個頁面是否一定是與我們聯系的頁面?
但是我不能100%確定所獲取的鏈接...
您永遠不會確定。
對於給定的隨機HTML頁面,您想找到“聯系我們”鏈接。 這種工作對人類來說是微不足道的。 對於計算機來說,這是一個巨大的挑戰。
在您的情況下,我可以看到一些選擇:
選項1:眾包
檢查平台是否提供API。
+ work done by human
+ dynamically adapt to unknown pattern
- cost money
- We suck at repetitive tasks
選項2: IA(專利檢索)
+ Automated task
+ Can perform a repetitive task long time
- May take time to built a robust solution
- Risk of false positive or complete miss
選項3:使用Jsoup
此選項是一個永無止境的任務。 您必須始終為Jsoup提供新的模式。 我建議您有一個監視系統,告訴您網站何時逃脫任何已知的模式。
+ Automated task
+ Can perform a repetitive task long time
- Take time for studying, discovering, adding new patterns
- Risk of false positive or complete miss
選項4:以上三個選項的混合
您可以在目標網站上使用三個選項。
+ Reduce chances of false positive or complete misses
+ More confident final result
- Take time for studying, discovering, adding new patterns
- Cost money
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.