我如何在R中匹配此模式

Question

我只需要在下面的模式中匹配第一個國家名稱。 國家名稱以所有大寫字母給出。 我使用以下代碼獲取匹配項，但它匹配所有國家。

'\\b[A-Z]{2,}.\\b'

例如：在下面的模式中，我只想要英國

x = "~ London, Greater London ~ UNITED KINGDOM;~ Ottawa, Ontario ~ CANADA;~,~ AUSTRALIA;~,~ POLAND;~,~ USA"

Answer 1

這似乎可行：

regmatches(x, regexpr('\\b[A-Z ]{2,}\\b', x))
# [1] "UNITED KINGDOM"

我只是添加了一個空格來設置字符集[AZ ] 。 請注意， regexpr獲得第一個匹配項，而gregexpr獲得所有匹配gregexpr （類似於sub vs gsub ）。

有關更多信息，我建議使用?regexpr的官方文檔。