按 Ruby 中的字符集對字符串進行分區/拆分

Question

如何在我的字符串中分隔不同的字符集？ 例如，如果我有這些字符集：

[a-z]
[A-Z]
[0-9]
[\s]
{everything else}

這個輸入：

thisISaTEST***1234pie

然后我想分隔不同的字符集，例如，如果我使用換行符作為分隔符：

this
IS
a
TEST
***
1234
pie

我已經嘗試過這個正則表達式，並具有積極的前瞻性：

'thisISaTEST***1234pie'.gsub(/(?=[a-z]+|[A-Z]+|[0-9]+|[\s]+)/, "\n")

但顯然+ s 並不貪婪，因為我得到：

t
h
# (snip)...
S
T***
1
# (snip)...
e

我剪掉了不相關的部分，但正如你所看到的，每個字符都被算作自己的字符集，除了{everything else}字符集。

我怎樣才能做到這一點？ 它不一定必須是正則表達式。 將它們拆分成一個數組也可以。

Answer 1

困難的部分是匹配與正則表達式其余部分不匹配的任何內容。 忘記這一點，想辦法將不匹配的部分與匹配的部分混合在一起。

"thisISaTEST***1234pie"
.split(/([a-z]+|[A-Z]+|\d+|\s+)/).reject(&:empty?)
# => ["this", "IS", "a", "TEST", "***", "1234", "pie"]

Answer 2

在 ASCII 字符集中，除了字母數字和空格之外，還有 32 個“標點”字符，它們與屬性結構\\p{punct}匹配。

要將字符串拆分為單個類別的序列，您可以編寫

str = 'thisISaTEST***1234pie'
p str.scan(/\G(?:[a-z]+|[A-Z]+|\d+|\s+|[\p{punct}]+)/)

輸出

["this", "IS", "a", "TEST", "***", "1234", "pie"]

或者，如果您的字符串包含 ASCII 集之外的字符，您可以按照屬性編寫整個內容，如下所示

p str.scan(/\G(?:\p{lower}+|\p{upper}+|\p{digit}+|\p{space}|[^\p{alnum}\p{space}]+)/)

Answer 3

這里有兩個解決方案。

String#scan使用正則表達式

str = "thisISa\n TEST*$*1234pie"

r = /[a-z]+|[A-Z]+|\d+|\s+|[^a-zA-Z\d\s]+/
str.scan r
  #=> ["this", "IS", "a", "\n ", "TEST", "*$*", "1234", "pie"]

由於^在[^a-zA-Z\\d\\s]的開頭，該字符類匹配除字母（小寫和大寫）、數字和空格以外的任何字符。

首先是一個輔助方法：

def type(c)
  case c
  when /[a-z]/ then 0
  when /[A-Z]/ then 1
  when /\d/    then 2
  when /\s/    then 3
  else              4
  end
end

例如，

type "f"   #=> 0
type "P"   #=> 1
type "3"   #=> 2
type "\n"  #=> 3
type "*"   #=> 4

然后

str.each_char.slice_when { |c1,c2| type(c1) != type(c2) }.map(&:join)
  #=> ["this", "IS", "a", "TEST", "***", "1234", "pie"]

^{1. slich_when在 Ruby v2.4 中首次亮相。}

Answer 4

非單詞、非空格字符可以用[^\\w\\s]覆蓋，因此：

"thisISaTEST***1234pie".scan /[a-z]+|[A-Z]+|\d+|\s+|[^\w\s]+/
#=> ["this", "IS", "a", "TEST", "***", "1234", "pie"]