正则表达式，用于删除除特定范围的字符外的所有字符串

Question

我需要您的帮助，以便使用HTML正则表达式中的HTML文档删除所有字符，除了 <body></body>和body标签内的整个字符串 。

我尝试使用此方法，但不起作用：

var str = "<html><head><title></title></head><body>my content</body></html>"
str.replace(/[^\<body\>(.+)\<\\body\>]+/g,'');

我只需要正文内容，其他选择是使用DOMParser ：

var oParser = new DOMParser(str);
var oDOM = oParser.parseFromString(str, "text/xml");

但这会引发解析通过Ajax加载我的字符串文档的错误。
预先感谢您的建议！

Answer 1

var str = "<html><head><title></title></head><body>my content</body></html>"

str=str.match(/<(body)>[\s\S]*?<\/\1>/gi);

//also you can try this:
//str=str.match(/<(body)>.*?<\/\1>/gis);

正则表达式可视化

Debuggex演示

Answer 2

您可以尝试此代码，

> var str = "<html><head><title></title></head><body>my content</body></html>"
undefined
> str.replace(/.*?(<body>.*?<\/body>).*/g, '$1');
'<body>my content</body>'

演示

Answer 3

您不能（或至少不应该）使用replace执行此操作； 尝试match ：

var str = "<html><head><title></title></head><body>my content</body></html>"
var m = str.match(/<body>.*<\/body>/);
console.log(m[0]); //=> "<body>my content</body>"

如果您有多行字符串，请更改. （不包含\\n ）到[\\S\\s] （非空白或空白）或类似内容。

正则表达式，用于删除除特定范围的字符外的所有字符串

问题描述

3 个解决方案

解决方案1
1 已采纳 2014-08-22 02:43:06

解决方案2
1 2014-08-22 02:43:15

解决方案3
0 2014-08-22 02:43:03

正则表达式，用于删除除特定范围的字符外的所有字符串

问题描述

3 个解决方案

解决方案1 1 已采纳 2014-08-22 02:43:06

解决方案2 1 2014-08-22 02:43:15

解决方案3 0 2014-08-22 02:43:03

解决方案1
1 已采纳 2014-08-22 02:43:06

解决方案2
1 2014-08-22 02:43:15

解决方案3
0 2014-08-22 02:43:03