簡體   English   中英

正則表達式,用於刪除復雜的html標簽

[英]Regex for removing complex html tags

我正在使用正則表達式來檢索html頁面的文本。 我使用此正則表達式消除了html標簽:

<[^>]+>

問題是此正則表達式無法在這樣的html標簽上正常工作:

<input type="button" onclick="if (a > b) do_somthing();">

此正則表達式將與<input type="button" onclick="if (a >b) do_somthing();">保持一致。

我應該使用哪個正則表達式來匹配此標記?

實現此目的的更好和正確的方法是使用HTML解析器(如敏捷HTML包)來解析HTML並根據需要使用。 用REGEX解析HTML很難且容易出錯。

了解更多: http : //www.mikesdotnetting.com/article/273/using-the-htmlagilitypack-to-parse-html-in-asp-net

如上所述,請閱讀以下鏈接,為什么正則表達式不能在HTML上運行-> 不要對HTML 使用正則表達式

如注釋中所建議,使用C#HTML解析器,例如CsQuery

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM