[英]Extracting Information from websites
并非每个网站都能通过XML feed,API等很好地公开其数据
我如何才能从网站提取信息? 例如:
...
<div>
<div>
<span id="important-data">information here</span>
</div>
</div>
...
我来自使用Apache XMLBeans进行Java编程和编码的背景。 当我知道结构和数据在已知标记之间时,是否有与解析HTML类似的东西?
谢谢
Java似乎很难完成这样的任务。 这是一个硬性要求吗? 脚本语言是构建真正大量的最后一英里代码的理想选择。
如果您愿意的话,ruby + hpricot可以让您完全微不足道。 您可以使用css或xpath选择器(或同时使用两者)来查找(和处理)HTML中的内容。 抓取文档,解析文档并提取示例中的文本实际上是一行代码。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.