[英]Regexp that matches all the text content of a HTML input
我在我的網站上有文章,我想自動更正和翻譯。 但是我需要獲取內容,而不需要使用HTML標記。
我們的想法是擁有一個可以檢索標簽之間所有內容的正則表達式(如果可能的話,還可以檢索標簽字段中的內容,例如<img alt='Little house'>
)。 問題是我真的不知道怎么寫這樣的正則表達式。 有任何想法嗎?
也許正則表達不是這項工作的最佳選擇(我將免除你的強制性長篇大論)。
我建議您查看一個HTML解析庫來幫助您,比如Html Agility Pack 。
正如人們所說,正則表達式不是最推薦的方式,但如果您認為正則表達式是可行的方法,那么這應該讓您開始:
string pattern = @"(<(/?[^>]+)>)"
strippedString = Regex.Replace(str, pattern, string.Empty);
不確定這是否有幫助,但我有能力將我網站上的文章翻譯成讀者首選語言,我使用Bing翻譯小部件完成了這一點,所以我不做任何解析html,這一切都是為我完成的。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.