正則表達式用於剝離HTML標簽和內容

Question

我已經搜索了，由於某種原因，我找不到任何解決方案。

這是我當前的文字：

Lorem ipsum <strong>dolor</strong> sit <i>amet</i>.

這就是我要的：

Lorem ipsum sit.

我不想使用HTML解析器。 我只想使用一個簡單的正則表達式來刪除HTML標記及其內部內容。

Answer 1

與全局標志一起使用的此正則表達式將匹配html標簽和html標簽內的文本。

<[\/\!]*?[^<>]*?>[A-Za-z0-9.,;:]*<[\/\!]*?[^<>]*?>

Answer 2

盡管@Tommy的答案對您有用，但該regex對於您要執行的操作確實太復雜了。 您可以簡單地做到這一點：

$str = "Lorem ipsum <strong>dolor</strong> sit <i>amet</i>.";

$r = preg_replace("/ <\S*>/", "", $str);

echo $r;
#=> Lorem ipsum sit.

Answer 3

preg_replace('/(<.*?>)|(&.*?;)/', '', $string)

這對我來說效果很好。 它會剝離所有HTML標記和特殊的HTML字符。 希望這可以幫助。