在Java中剝離HTML標記

Question

是否有現有的Java庫提供了從String中剝離所有HTML標記的方法？ 我正在尋找與PHP中的strip_tags函數等效的東西。

我知道我可以使用這個Stackoverflow問題中描述的正則表達式，但是我很好奇是否已經有一個stripTags()方法浮動在Apache Commons庫中可以使用的某個地方。

Answer 1

使用JSoup ，它有很好的文檔記錄，可以在Maven上使用，經過一天的花費時間與幾個庫，對我來說，它是我能想象的最好的..我自己的意見是，這樣的工作，解析html到plain-文本，應該可以在一行代碼 - >否則庫已經以某種方式失敗...只是說^^所以這里是，JSoup的單行 - 在Markdown4J，類似的東西是不可能的，在Markdownj ，在htmlCleaner中，這有點大約50行代碼的痛苦...

String plain = new HtmlToPlainText().getPlainText(Jsoup.parse(html));

你得到的是真正的純文本（不僅僅是作為字符串的html源代碼，就像在其他庫中一樣） - >他真的做得很好。 它與Markdownify for PHP或多或少相同的質量....

Answer 2

這是我在谷歌上發現的。 對我來說它工作得很好。

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

Answer 3

無論您做什么，請確保在開始嘗試剝離標記之前對數據進行標准化。 我最近參加了一個涵蓋XSS過濾器規避的Web應用安全研討會。 人們通常會認為搜索<或< 或其十六進制等效就足夠了。 我看到與70點的方式滑動后吹走<可以被編碼到打濾波器。

更新：

下面是我所指的演示文稿，請參閱幻燈片26，了解70種編碼方式< 。

過濾器逃避：電線上的Houdini

Answer 4

可能有一些，但最強大的是使用實際的HTML解析器。 有一個在這里，如果它是相當不錯形成，也可以使用SAX或另一個XML分析器。

Answer 5

在將這個問題打開將近一周之后，我可以肯定地說，Java API或Apache庫中沒有可用的方法從String中刪除HTML標記。 您可能必須使用前面答案中描述的HTML解析器，或者編寫一個簡單的正則表達式來去除標記。

Answer 6

使用Jsoup時，它比上面的答案更容易：

String html = "bla <b>hehe</b> <br> this is awesome simple";

String text = Jsoup.parse(html).text();

Answer 7

我用過nekoHtml來做到這一點。 它可以剝離所有標簽，但它可以輕松地保留或剝離標簽的子集。

Answer 8

我知道這個問題已經很老了，但我一直在尋找這個問題，似乎在java中找到一個好的和簡單的解決方案似乎仍然不容易。

今天我遇到了這個小函數庫。 它實際上試圖模仿php strip_tags函數。

http://jmelo.lyncode.com/java-strip_tags-php-function/

它的工作原理如下（從他們的網站復制）：

    import static com.lyncode.jtwig.functions.util.HtmlUtils.stripTags;

    public class StripTagsExample {
      public static void main(String... args) {
        String result = stripTags("<!-- <a href='test'></a>--><a>Test</a>", "");
        // Produced result: Test
      }
    }

Answer 9

嗨，我知道這個帖子已經老了，但它仍然出現在谷歌的頂部，我正在尋找快速修復同樣的問題。 找不到任何有用的東西，所以我想出了這段代碼片段 - 希望它對某人有所幫助。 它只是循環遍歷字符串並跳過所有標記。 簡單明了。

boolean intag = false;
String inp = "<H1>Some <b>HTML</b> <span style=blablabla>text</span>";
String outp = "";

for (int i=0; i < inp.length(); ++i)
{
    if (!intag && inp.charAt(i) == '<')
        {
            intag = true;
            continue;
        }
        if (intag && inp.charAt(i) == '>')
        {
            intag = false;
            continue;
        }
        if (!intag)
        {
            outp = outp + inp.charAt(i);
        }
}   
return outp;

Answer 10

使用純迭代方法，沒有正則表達式：

public String stripTags(final String html) {

    final StringBuilder sbText = new StringBuilder(1000);
    final StringBuilder sbHtml = new StringBuilder(1000);

    boolean isText = true;

    for (char ch : html.toCharArray()) {
        if (isText) { // outside html
            if (ch != '<') {
                sbText.append(ch);
                continue;
            } else {   // switch mode             
                isText = false;      
                sbHtml.append(ch); 
                continue;
            }
        }else { // inside html
            if (ch != '>') {
                sbHtml.append(ch);
                continue;
            } else {      // switch mode    
                isText = true;     
                sbHtml.append(ch); 
                continue;
            }
        }
    }

    return sbText.toString();
}

Answer 11

由於html片段的縮寫（字符串截斷），我還有正則表達式無法檢測到的未閉合html標記的問題。 例如：

Lorem ipsum dolor sit amet, <b>consectetur</b> adipiscing elit. <a href="abc"

所以，參考2個最佳答案（JSoup和regex），我更喜歡使用JSoup的解決方案：

Jsoup.parse(html).text()

Answer 12

Wicket使用以下方法來轉義html，位於：org.apache.wicket.util.string.Strings

public static CharSequence escapeMarkup(final String s, final boolean escapeSpaces,
    final boolean convertToHtmlUnicodeEscapes)
{
    if (s == null)
    {
        return null;
    }
    else
    {
        int len = s.length();
        final AppendingStringBuffer buffer = new AppendingStringBuffer((int)(len * 1.1));

        for (int i = 0; i < len; i++)
        {
            final char c = s.charAt(i);

            switch (c)
            {
                case '\t' :
                    if (escapeSpaces)
                    {
                        // Assumption is four space tabs (sorry, but that's
                        // just how it is!)
                        buffer.append("&nbsp;&nbsp;&nbsp;&nbsp;");
                    }
                    else
                    {
                        buffer.append(c);
                    }
                    break;

                case ' ' :
                    if (escapeSpaces)
                    {
                        buffer.append("&nbsp;");
                    }
                    else
                    {
                        buffer.append(c);
                    }
                    break;

                case '<' :
                    buffer.append("&lt;");
                    break;

                case '>' :
                    buffer.append("&gt;");
                    break;

                case '&' :

                    buffer.append("&amp;");
                    break;

                case '"' :
                    buffer.append("&quot;");
                    break;

                case '\'' :
                    buffer.append("&#039;");
                    break;

                default :

                    if (convertToHtmlUnicodeEscapes)
                    {
                        int ci = 0xffff & c;
                        if (ci < 160)
                        {
                            // nothing special only 7 Bit
                            buffer.append(c);
                        }
                        else
                        {
                            // Not 7 Bit use the unicode system
                            buffer.append("&#");
                            buffer.append(new Integer(ci).toString());
                            buffer.append(';');
                        }
                    }
                    else
                    {
                        buffer.append(c);
                    }

                    break;
            }
        }

        return buffer;
    }
}

Answer 13

public static String stripTags(String str) {
    int startPosition = str.indexOf('<');
    int endPosition;
    while (startPosition != -1) {
        endPosition = str.indexOf('>', startPosition);
        str = str.substring(0, startPosition) + (endPosition != -1 ? str.substring(endPosition + 1) : "");
        startPosition = str.indexOf('<');
    }
    return str;
}

在Java中剝離HTML標記

問題描述

13 個解決方案

解決方案1
33 2013-07-17 15:03:57

解決方案2
29 2011-11-27 01:18:30

解決方案3
29 2009-05-07 03:29:48

解決方案4
11 2009-05-07 02:29:39

解決方案5
11 已采納 2009-05-13 17:53:59

解決方案6
7 2014-11-26 10:22:05

解決方案7
6 2009-05-07 03:03:19

解決方案8
5 2014-03-19 12:36:01

解決方案9
3 2012-08-23 00:03:56

解決方案10
3 2014-09-24 08:10:31

解決方案11
1 2017-01-23 14:28:41

解決方案12
0 2009-09-17 01:02:38

解決方案13
0 2016-01-31 13:00:50

在Java中剝離HTML標記

問題描述

13 個解決方案

解決方案1 33 2013-07-17 15:03:57

解決方案2 29 2011-11-27 01:18:30

解決方案3 29 2009-05-07 03:29:48

解決方案4 11 2009-05-07 02:29:39

解決方案5 11 已采納 2009-05-13 17:53:59

解決方案6 7 2014-11-26 10:22:05

解決方案7 6 2009-05-07 03:03:19

解決方案8 5 2014-03-19 12:36:01

解決方案9 3 2012-08-23 00:03:56

解決方案10 3 2014-09-24 08:10:31

解決方案11 1 2017-01-23 14:28:41

解決方案12 0 2009-09-17 01:02:38

解決方案13 0 2016-01-31 13:00:50

解決方案1
33 2013-07-17 15:03:57

解決方案2
29 2011-11-27 01:18:30

解決方案3
29 2009-05-07 03:29:48

解決方案4
11 2009-05-07 02:29:39

解決方案5
11 已采納 2009-05-13 17:53:59

解決方案6
7 2014-11-26 10:22:05

解決方案7
6 2009-05-07 03:03:19

解決方案8
5 2014-03-19 12:36:01

解決方案9
3 2012-08-23 00:03:56

解決方案10
3 2014-09-24 08:10:31

解決方案11
1 2017-01-23 14:28:41

解決方案12
0 2009-09-17 01:02:38

解決方案13
0 2016-01-31 13:00:50