[英]How can I remove HTML tags in Java?
我需要從Java中以下字符串中刪除HTML標簽
String text = "<html><head></head><body>hi x>a and y<b and z>c</body></html>";
我可以使用正則表達式來做到這一點。 但是它也會刪除字符串中的“ b和z”。 因為它被認為是標簽。
當然,它將刪除“ b和z”。 應該刪除該文本。 因為在HTML中,屬性不必用引號引起來,並且它們不需要值。 所以b
是元素,而and
和z
是屬性(無值)。 這就是HTML解析器將識別的內容。
當然, and
和z
並不是b
元素的真正可接受屬性,但是就語法格式正確而言,您應該將b
視為元素。
如果您不希望將其刪除,則需要將<
編寫為<
。 無論如何,這就是如何編寫正確的HTML。 :)
附錄
(是的,我知道上面在評論中引用的著名的“不能用正則表達式解析HTML”答案,但是問題中的<
vs <
值得在答案中指出,恕我直言。)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.