[英]Regex for removing complex html tags
我正在使用正則表達式來檢索html頁面的文本。 我使用此正則表達式消除了html標簽:
<[^>]+>
問題是此正則表達式無法在這樣的html標簽上正常工作:
<input type="button" onclick="if (a > b) do_somthing();">
此正則表達式將與<input type="button" onclick="if (a >
和b) do_somthing();">
保持一致。
我應該使用哪個正則表達式來匹配此標記?
實現此目的的更好和正確的方法是使用HTML解析器(如敏捷HTML包)來解析HTML並根據需要使用。 用REGEX解析HTML很難且容易出錯。
了解更多: http : //www.mikesdotnetting.com/article/273/using-the-htmlagilitypack-to-parse-html-in-asp-net
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.