![](/img/trans.png)
[英]What does the -u flag do to performance or execution of a Python script?
[英]What does “(?u)” do in a regex?
我研究了如何在scikit-learn中實現標記化並找到了這個正則表達式( 源代碼 ):
token_pattern = r"(?u)\b\w\w+\b"
正則表達式非常簡單,但我以前從未見過(?u)
部分。 有人可以解釋一下這部分是做什么的嗎?
它打開此表達式的re.U
( re.UNICODE
)標志 。
從模塊文檔 :
(?iLmsux)
(來自集合
'i'
,'L'
,'m'
,'s'
,'u'
,'x'
一個或多個字母。)該組匹配空字符串; 字母設置相應的標志:re.I
(忽略大小寫),re.L
(依賴於語言環境),re.M
(多行),re.S
(點匹配所有),re.U
(取決於Unicode),以及re.X
(詳細),用於整個正則表達式。 (標志在模塊內容中描述。)如果您希望將標志包含在正則表達式的一部分中,而不是將標志參數傳遞給re.compile()
函數,這將非常有用。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.