从网站提取信息

Question

并非每个网站都能通过XML feed，API等很好地公开其数据

我如何才能从网站提取信息？ 例如：

...
<div>
  <div>
    <span id="important-data">information here</span>
  </div>
</div>
...

我来自使用Apache XMLBeans进行Java编程和编码的背景。 当我知道结构和数据在已知标记之间时，是否有与解析HTML类似的东西？

谢谢

Answer 1

这是一篇文章，其中有几个用Java编写的屏幕抓取工具。

通常，您似乎想看一下正则表达式，它们可以满足您想要的模式匹配。

希望有帮助！

Answer 2

有几种Java的开源HTML解析器。

我过去曾经使用过JTidy ，并祝它好运。 它将为您提供html页面的DOM，您应该能够从那里获取所需的标签。

Answer 3

Java似乎很难完成这样的任务。 这是一个硬性要求吗？ 脚本语言是构建真正大量的最后一英里代码的理想选择。

如果您愿意的话，ruby + hpricot可以让您完全微不足道。 您可以使用css或xpath选择器（或同时使用两者）来查找（和处理）HTML中的内容。 抓取文档，解析文档并提取示例中的文本实际上是一行代码。