繁体   English   中英

正则表达式HTML标记javascript

[英]Regular expression HTML tag javascript

我想验证输入的代码是否为HTML代码(以<html>开头和</html>结束是必需的)

我尝试这样做

 var reghtml = new RegExp("(<html>*\\n+</html>)"); 

但是我有一个问题需要在代码中添加\\ n,我需要验证第一个标签和结束标签(= <html></html> ),并且如果他在它们之间做一些操作,则必须以<和开头以>结尾

有什么解决办法吗?

您不应该使用正则表达式来验证HTML(更不用说解析它了),因为HTML不是“ 常规语言 ”。

因此,下面是一个假阴性案例的示例,该案例将导致您可以编写任何正则表达式来尝试验证HTML以将其标记为无效:

<html>
<head>
    <!-- </html> -->
</head>
<body>
    <p>This is valid HTML</p>
</body>
</html>

而且,因为您可以在HTML(以及SGML和XML)中嵌套注释,所以您也不能为这种特殊情况编写简单的正则表达式:

<html>
<head>
    <!-- <!-- <!-- <!-- </html> -->
</head>
<body>
    <p>This is valid HTML</p>
</body>
</html>

这是一个假阳性(假设您不使用^$ regex锚):

<p>illegal element</p>
<html>
    <img>illegal text node</img>
</html>
<p>another illegal element</p>

当然,有更强大的正则表达式实现,为诸如计数深度之类的功能增加了基本支持,但是那样您就陷入了痛苦的世界。

验证HTML的正确方法是使用HTML DOM库。 在.NET中,这是HtmlAgilityPack。 在基于浏览器的JavaScript中,它甚至更简单:只需使用浏览器的内置解析器( innerHTML ):

(从“ 检查HTML代码段是否对Java脚本有效”中窃取)

function isValidHtml(html) {
    var doc = document.implementation.createHTMLDocuiment("");
    doc.documentElement.innerHTML = html;
    return ( doc.documentElement.innerHTML === html );
}

这是给你的模式。 它检查第一级是否具有有效的开始和结束标签。 第一层必须具有结束标记,您不能执行<html><img /></html> ,因为您可以删除整个结束标记检查模式部分。

 var validHtml = '\\ <html itemscope>\\ <head></head>\\ <body style="background: red;">\\ Everything is fine\\ </body>\\ </html>\\ ', invalidHtml = '\\ <html itemscope>\\ <head></foot>\\ <body>\\ Nothing is fine\\ </body>\\ </html>\\ ', pattern = /^\\s*<html(?:\\s[^>]*)?>(?:\\s*<(\\w+)(?:\\s[^>]+)?>(?:.|\\s)*<\\/\\1>\\s*)*<\\/html>\\s*$/i; console.log(pattern.test(validHtml) ? 'valid' : 'invalid'); console.log(pattern.test(invalidHtml) ? 'valid' : 'invalid'); 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM