正則表達式，用於刪除復雜的html標簽

Question

我正在使用正則表達式來檢索html頁面的文本。 我使用此正則表達式消除了html標簽：

<[^>]+>

問題是此正則表達式無法在這樣的html標簽上正常工作：

<input type="button" onclick="if (a > b) do_somthing();">

此正則表達式將與<input type="button" onclick="if (a >和b) do_somthing();">保持一致。

我應該使用哪個正則表達式來匹配此標記？

Answer 1

實現此目的的更好和正確的方法是使用HTML解析器（如敏捷HTML包）來解析HTML並根據需要使用。 用REGEX解析HTML很難且容易出錯。

Answer 2

如上所述，請閱讀以下鏈接，為什么正則表達式不能在HTML上運行-> 不要對HTML 使用正則表達式。

如注釋中所建議，使用C＃HTML解析器，例如CsQuery 。