繁体   English   中英

使用JSOUP从网页检索有用的信息

[英]retrieve useful info from webpage using JSOUP

如何从JAVA页面的“页脚”部分中的任何网页检索“与我们联系”链接。

例如,找到页脚元素,或具有id =“ footer”或具有页脚类的元素?

我曾尝试使用JSOUP检索网页中的所有链接,然后在其中运行regex .*contact.* 但是,我不能100%确定从此方法获取的链接是网站的“与我们联系”页面。

Q2

还有其他健壮的方法吗?或者我可以同时使用页脚链接和已经完成的方法来推断某个页面是否一定是与我们联系的页面?

但是我不能100%确定所获取的链接...

短答案

您永远不会确定。


长答案

对于给定的随机HTML页面,您想找到“联系我们”链接。 这种工作对人类来说是微不足道的。 对于计算机来说,这是一个巨大的挑战。

在您的情况下,我可以看到一些选择:

选项1:众包

  • 获取您想要的“联系我们”信息的所有网站网址
  • 将他们发送到人群服务平台,要求真实的人为您找到信息(Rapidworkers.com,Crowdsource.com,Clickworker.com,Amazon Mechanical Turk,microworkers.com)

检查平台是否提供API。

+ work done by human
+ dynamically adapt to unknown pattern
- cost money
- We suck at repetitive tasks

选项2: IA(专利检索)

  • 训练IA以提取信息
  • 然后通过它您的网站

看一下WekaJava-ML

+ Automated task
+ Can perform a repetitive task long time
- May take time to built a robust solution
- Risk of false positive or complete miss

选项3:使用Jsoup

  • 仔细研究您所定位的网站的模式
  • 告诉Jsoup查找您检测到的模式

此选项是一个永无止境的任务。 您必须始终为Jsoup提供新的模式。 我建议您有一个监视系统,告诉您网站何时逃脱任何已知的模式。

+ Automated task
+ Can perform a repetitive task long time
- Take time for studying, discovering, adding new patterns
- Risk of false positive or complete miss

选项4:以上三个选项的混合

您可以在目标网站上使用三个选项。

+ Reduce chances of false positive or complete misses
+ More confident final result
- Take time for studying, discovering, adding new patterns
- Cost money

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM