繁体   English   中英

从网站提取信息

[英]Extracting Information from websites

并非每个网站都能通过XML feed,API等很好地公开其数据

我如何才能从网站提取信息? 例如:

...
<div>
  <div>
    <span id="important-data">information here</span>
  </div>
</div>
...

我来自使用Apache XMLBeans进行Java编程和编码的背景。 当我知道结构和数据在已知标记之间时,是否有与解析HTML类似的东西?

谢谢

这是一篇文章 ,其中有几个用Java编写的屏幕抓取工具。

通常,您似乎想看一下正则表达式 ,它们可以满足您想要的模式匹配。

希望有帮助!

有几种Java的开源HTML解析器。

我过去曾经使用过JTidy并祝它好运。 它将为您提供html页面的DOM,您应该能够从那里获取所需的标签。

Java似乎很难完成这样的任务。 这是一个硬性要求吗? 脚本语言是构建真正大量的最后一英里代码的理想选择。

如果您愿意的话,ruby + hpricot可以让您完全微不足道。 您可以使用css或xpath选择器(或同时使用两者)来查找(和处理)HTML中的内容。 抓取文档,解析文档并提取示例中的文本实际上是一行代码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM