簡體   English   中英

如何使用正則表達式從字符串中提取RFC1123主機名?

[英]How can I extract RFC1123 hostnames from a string using regular expressions?

我正在尋找一個正則表達式,該表達式將匹配可以包含任何內容的字符串中可能是有效RFC1123主機名的任何內容。 這個想法是提取所有可能是主機名的內容(通過檢查子字符串是否符合所有要求都為一個)-最大長度為255個字符除外,這很容易在以后檢查結果。

我最初想出了:

/(^|[^a-z0-9-])([a-z0-9]([a-z0-9-]{0,61}[a-z0-9])?(\.[a-z0-9]([a-z0-9-]{0,61}[a-z0-9])?)*)([^a-z0-9-]|$)/i

盡管這與括號表達式2中的某些主機名匹配(按預期),但似乎跳過了其他主機名。 在堆棧溢出中查找問題,我發現了以下相關問題:

正則表達式匹配DNS主機名或IP地址?

從積極的反饋來看,答案應該是正確的(盡管它不能驗證標簽的大小),所以我想嘗試一下。 我將它們的表達式轉換為類似於上一個的可提取格式:

/(^|[^a-z0-9-])((([a-z0-9]|[a-z0-9][a-z0-9-]*[a-z0-9])\.)*([a-z0-9]|[a-z0-9][a-z0-9-]*[a-z0-9]))([^a-z0-9-]|$)/i

同樣,它應該在帶括號的表達式2中返回期望的結果,但是它似乎跳過了一些有效的子字符串。 我認為我檢查不屬於主機名的定界符的方式可能存在問題。

有任何想法嗎?

弄清楚了。 在掃描字符串以查找順序匹配項時,在所需表達式之前和之后都使用定界符意味着必須在每對主機名之間使用兩個字符。 因此,當主機名僅相隔一個字符時,第二個字符將被跳過!

要獲得正確的結果,必須簡單地刪除前導定界符:

/([a-z0-9]([a-z0-9-]{0,61}[a-z0-9])?(\.[a-z0-9]([a-z0-9-]{0,61}[a-z0-9])?)*)([^a-z0-9-]|$)/i

僅用於驗證,而不是掃描。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM