我想解析一些HTML,以便找到一些属性/标签的值等。

你推荐什么HTML解析器? 有什么优点和缺点?

===============>>#1 票数:12 已采纳

NekoHTMLTagSoupJTidy将允许您解析HTML,然后使用XML工具(如XPath)进行处理。

===============>>#2 票数:7

我尝试过HTML Parser ,这很简单。

===============>>#3 票数:1

你需要对HTML进行全面解析吗? 如果您只是在内容中查找特定值(特定标记/参数),那么简单的正则表达式可能就足够了,并且可能更快。

  ask by pek translate from so

未解决问题?本站智能推荐:

5回复

可以解析HTML文档并构建DOM树(java)

是否可能以及可以使用哪些工具将html文档解析为字符串或文件,然后构造DOM树,以便开发人员可以通过一些API遍历该树。 例如: 注意:这是HTML文档,而不是XHtml。
9回复

在iPhone上解析HTML [关闭]

按照目前的情况,这个问题不适合我们的问答形式。 我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。
15回复

在C#中解析html的最佳方法是什么? [关闭]

我正在寻找一种库/方法来解析比通用xml解析库具有更多html特定功能的html文件。
5回复

在python中解析嵌入在HTML中的固定格式数据

我正在使用Google的Appengine API 来获取网页。 的结果 是html内容(在result.content中)的字符串。 问题是我要解析的数据不是真正的HTML格式,因此我认为使用python HTML解析器对我不起作用。 我需要解析html文档正文中的所有纯
5回复

你如何在vb.net中解析HTML

我想知道是否有一种简单的方法来解析vb.net中的HTML。 我知道HTML不是XML的sctrict子集,但如果可以这样对待它会很好。 有没有什么可以让我在VB.net中以类似XML的方式解析HTML?
6回复

你如何解析格式不佳的HTML文件?

我必须解析一系列网页才能将数据导入应用程序。 每种类型的网页都提供相同类型的数据。 问题是每个页面的HTML不同,因此数据的位置会有所不同。 另一个问题是HTML代码格式不正确,因此无法使用类似XML的解析器。 到目前为止,我能想到的最好的策略是为每种页面定义一个模板,例如:
2回复

创建伟大的解析器 - 从HTML /博客中提取相关文本

我正在尝试创建一个在Blog Posts上运行良好的通用HTML解析器。 我想将我的解析器指向特定的entrie的URL并获取帖子本身的干净文本。 我的基本方法(来自python)一直使用BeautifulSoup / Urllib2的组合,这没关系,但它假设你知道博客条目的正确标签。 有
2回复

PHP中的HTML注释抓取

我一直在环顾四周,但尚未找到解决方案。 我正在尝试抓取HTML文档并获取两个注释之间的文本,但到目前为止无法成功完成此操作。 我正在使用PHP,并尝试了多次在这里推荐的PHP Simple DOM解析器,但似乎无法使其执行我想要的操作。 这是我要解析的页面(的一部分): 谢
3回复

解析带有回发的.Net页面

我需要从在线数据库中读取数据,该数据库是使用联合国的aspx页面显示的。 我之前已经做过HTML解析,但这总是通过操纵查询字符串值来完成的。 在这种情况下,站点使用asp.net回发。 因此,您在方框1中单击一个值,然后在方框2中显示,在方框2中单击一个值,然后单击一个按钮以获取结果。
5回复

如何从原始HTML文件提取数据?

有没有一种方法可以从原始的HTML中提取所需的数据,而这些原始HTML是没有IDs和classes ,因此无法正确编写? 我的意思是,假设存在网页(配置文件)的已保存html文件,并且我想提取诸如“爱好”之类的数据。 是否可以使用PHP做到这一点?