Regexp匹配HTML輸入的所有文本內容

Question

我在我的網站上有文章，我想自動更正和翻譯。 但是我需要獲取內容，而不需要使用HTML標記。

我們的想法是擁有一個可以檢索標簽之間所有內容的正則表達式（如果可能的話，還可以檢索標簽字段中的內容，例如<img alt='Little house'> ）。 問題是我真的不知道怎么寫這樣的正則表達式。 有任何想法嗎？

Answer 1

我建議使用HTML解析器，而不是依賴於正則表達式。 使用正則表達式解析HTML通常是禁止的，並且幾乎不可能適用於所有情況。 這里有很多關於SO的問題得出了相同的結論。

編輯看起來像我們中的幾個人有相同的想法...此外，這是一個討論更多解析器的問題。

Answer 2

也許正則表達不是這項工作的最佳選擇（我將免除你的強制性長篇大論）。

我建議您查看一個HTML解析庫來幫助您，比如Html Agility Pack 。

Answer 3

正如人們所說，正則表達式不是最推薦的方式，但如果您認為正則表達式是可行的方法，那么這應該讓您開始：

string pattern = @"(<(/?[^>]+)>)"
strippedString = Regex.Replace(str, pattern, string.Empty);

Answer 4

不確定這是否有幫助，但我有能力將我網站上的文章翻譯成讀者首選語言，我使用Bing翻譯小部件完成了這一點，所以我不做任何解析html，這一切都是為我完成的。