繁体 English 中英

从Java文档中删除html标记的最快方法是什么？

[英]What is the fastest way to remove html tags from a document in java?

原文 2012-01-03 10:25:11 7 3 java/ html-parsing/ jsoup/ html/ htmlcleaner

我有一堆Web文档，想从中删除html标签。 我在StackOverflow上看到了一些有关如何在Java中执行操作的帖子，从正则表达式到HtmlCleaner和Jsoup都是如此。

我对寻找最快的方法感兴趣。 我有数百万个文档，因此对于我而言，性能至关重要。 我什至可以用一点质量来换取性能。

感谢您提前提出任何答案。

3 个解决方案

我的观点是尽可能多地使用流/ SAX处理：1）因为它使用较少的内存2）速度较快3）并行化更容易（内存消耗低的后果）

您拥有数百万个文档的用例需要这些因素（根据我的观点）。 请看那里Wikipedia SAX

因此，如果您的HTML是严格的或XHTML。 使用XSLT，这是有关如何使用SAX XSLT + SAX + Java转换XML（XHTML）的教程。

最后，如果您没有XML有效的HTML，请查看以下Java：替换使用流（和PushBackReader）的流，数组，文件等中的字符串。

HTH

1）如果html是正确的xml，则可以创建其文档对象并删除该节点。

2）如果不是正确的xml，则将整个html读取为字符串＆并使用replace函数删除“ html” sunbstring。

如果HTMl不是正确的xml，则regex是替换字符串的最快方法。

似乎Java regexp是最快的解决方案。 但是，它降低了之后获得的文本的质量。

使用Java获取HTML内容的最快方法是什么？

[英]What is the fastest way to get a HTML Content using java?

如何从Java中的html标记中删除属性

[英]how to remove attribute from html tags in java

Java正则表达式从html中删除标签

[英]Java Regular Expression to Remove tags from html

用Java从另一个中删除一个Longs集合的最快方法

[英]Fastest way to remove a Collection of Longs from another in Java

使用Java从文件读取和写入字符串的绝对最快方法是什么？

[英]What is the absolute fastest way to read and write strings from a file with Java?

将数据从应用程序（Java）导入临时表的最快方法是什么？

[英]What is the fastest way to import data from application (Java) into temporary table?

从Java应用程序获取数据到Cassandra 2的最快方法是什么？

[英]What is the fastest way to get data into Cassandra 2 from a Java application?

从 Java 中的文件中读取整数的最快方法是什么？

[英]What would be the fastest way to read integers from a file in Java?

从 Java 中的 System.in 读取的最快方法是什么？

[英]What's the fastest way to read from System.in in Java?

Java，IO - 删除文件的最快方法

[英]Java, IO - fastest way to remove file

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Java获取HTML内容的最快方法是什么？如何从Java中的html标记中删除属性 Java正则表达式从html中删除标签用Java从另一个中删除一个Longs集合的最快方法使用Java从文件读取和写入字符串的绝对最快方法是什么？将数据从应用程序（Java）导入临时表的最快方法是什么？从Java应用程序获取数据到Cassandra 2的最快方法是什么？从 Java 中的文件中读取整数的最快方法是什么？从 Java 中的 System.in 读取的最快方法是什么？ Java，IO - 删除文件的最快方法

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM