如何僅將 URL 的主要部分與正則表達式匹配？

Question

努力想出一種巧妙的方法來匹配以下所有粗體術語。 應該排除所有前導和尾隨括號，並且不匹配實際頁面 url 之外的任何內容，無論是否提供原始、域等。本質上是一個文本框，人們可以在其中以他們想要的任何有效方式輸入 url，我們只想獲取實際頁面它代表我們的網站。

https://www.example.com/ page-words /

http://www.example.com/ page-other-words /

www.example.com/頁/另一頁

更多頁面/更多/

example.com/ page-more-words /

/文檔/

/文字

測試

其他/

Answer 1

鑒於這些字符串...

https://www.example.com/page-words/

http://www.example.com/page-other-words/

www.example.com/page/another-page

more-page/some-more/

example.com/page-more-words/

/doc/

/text

test

other/

試試這個正則表達式...

^(.*?.com\/|\/)?(.*?)(\/)?$

演示（站點在右側欄解釋正則表達式）： https : //regex101.com/r/h0Cohs/1

所需的子字符串在 $2（Python 中的 \\2）中捕獲，因此您可以只捕獲：

page-words

page-other-words

page/another-page

more-page/some-more

page-more-words

doc

text

test

other

如何僅將 URL 的主要部分與正則表達式匹配？

問題描述

1 個解決方案

解決方案1
2 已采納 2020-03-29 17:52:07

如何僅將 URL 的主要部分與正則表達式匹配？

問題描述

1 個解決方案

解決方案1 2 已采納 2020-03-29 17:52:07

解決方案1
2 已采納 2020-03-29 17:52:07