簡體   English   中英

Regexp匹配HTML輸入的所有文本內容

[英]Regexp that matches all the text content of a HTML input

我在我的網站上有文章,我想自動更正和翻譯。 但是我需要獲取內容,而不需要使用HTML標記。

我們的想法是擁有一個可以檢索標簽之間所有內容的正則表達式(如果可能的話,還可以檢索標簽字段中的內容,例如<img alt='Little house'> )。 問題是我真的不知道怎么寫這樣的正則表達式。 有任何想法嗎?

我建議使用HTML解析器 ,而不是依賴於正則表達式。 使用正則表達式解析HTML通常是禁止的,並且幾乎不可能適用於所有情況。 這里有很多關於SO的問題得出了相同的結論。

編輯看起來像我們中的幾個人有相同的想法...此外, 這是一個討論更多解析器的問題

也許正則表達不是這項工作的最佳選擇(我將免除你的強制性長篇大論)。

我建議您查看一個HTML解析庫來幫助您,比如Html Agility Pack

正如人們所說,正則表達式不是最推薦的方式,但如果您認為正則表達式是可行的方法,那么這應該讓您開始:

string pattern = @"(<(/?[^>]+)>)"
strippedString = Regex.Replace(str, pattern, string.Empty);

不確定這是否有幫助,但我有能力將我網站上的文章翻譯成讀者首選語言,我使用Bing翻譯小部件完成了這一點,所以我不做任何解析html,這一切都是為我完成的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM