簡體   English   中英

如何刪除Java中的HTML標簽?

[英]How can I remove HTML tags in Java?

我需要從Java中以下字符串中刪除HTML標簽

String text = "<html><head></head><body>hi x>a and y<b and z>c</body></html>";

我可以使用正則表達式來做到這一點。 但是它也會刪除字符串中的“ b和z”。 因為它被認為是標簽。

當然,它將刪除“ b和z”。 應該刪除該文本。 因為在HTML中,屬性不必用引號引起來,並且它們不需要值。 所以b是元素,而andz是屬性(無值)。 這就是HTML解析器將識別的內容。

當然, andz並不是b元素的真正可接受屬性,但是就語法格式正確而言,您應該將b視為元素。

如果您不希望將其刪除,則需要將<編寫為&lt; 無論如何,這就是如何編寫正確的HTML。 :)

附錄

(是的,我知道上面在評論中引用的著名的“不能用正則表達式解析HTML”答案,但是問題中的< vs &lt;值得在答案中指出,恕我直言。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM