Regexp - 搜索不包含整個單詞的文本

Question

我有類似這樣的文字：

<html>this is the text and this is another text</html>

我需要使用regexp獲取此文本

this is the text

問題是，當我使用這樣的簡單正則表達式（ <html>.* ）時，我會得到全文，直到最后一次出現

誰能幫我？

謝謝lennyd

Answer 1

你需要一個非貪婪的比賽：

<html>.*?</p>

此外，您可能需要考慮為此任務使用HTML解析器而不是正則表達式。

Answer 2

默認情況下，正則表達式量詞是貪婪的，即您獲得最大長度的匹配。 您必須使用。*指定您想要“非貪婪”的匹配？

Answer 3

要捕獲para標簽之間的數據，你可以使用regexp和正面/(.*)(?=<\\/p>)/斷言/ < /(.*)(?=<\\/p>)/ ( .*? /(.*)(?=<\\/p>)/ ，這比那時更貪婪.*? 並且工作速度較慢，但可能對您有所幫助。 還要確保您的HTML有效，這意味着：

所有para標簽都已關閉。 HTML瀏覽器在進入另一個塊時關閉para標簽。
Para標簽不嵌套:)否則你有任何正則表達式的問題。

Answer 4

愚蠢的問題，仍然使用純正則表達式，為什么不剝離任何<..>內部段落？ 然后用[^<]類的東西抓住這些短語
？

Regexp - 搜索不包含整個單詞的文本

問題描述

4 個解決方案

解決方案1
3 已采納 2010-02-06 19:31:38

解決方案2
2 2010-02-06 19:34:59

解決方案3
0 2010-02-06 20:41:06

解決方案4
0 2010-02-07 01:18:55

Regexp - 搜索不包含整個單詞的文本

問題描述

4 個解決方案

解決方案1 3 已采納 2010-02-06 19:31:38

解決方案2 2 2010-02-06 19:34:59

解決方案3 0 2010-02-06 20:41:06

解決方案4 0 2010-02-07 01:18:55

解決方案1
3 已采納 2010-02-06 19:31:38

解決方案2
2 2010-02-06 19:34:59

解決方案3
0 2010-02-06 20:41:06

解決方案4
0 2010-02-07 01:18:55