在 R 中拆分 unicode 字符的字符串

Question

我有一列需要拆分的 unicode 字符，以便計算它們的頻率。 我嘗試了許多不同的方法來嘗試拆分這些，但沒有取得任何進展。 數據的輸入格式為

[1] "\U00010603"                                                                                                                                                                                    
[2] "\U0001076b\U00010631\U0001076b"                                                                                                                                                                
[3] "\U00010631\U00010633"
[4] "\U0001061a\U00010655\U00010609\U00010631"
...

並且 id 像 output 是

[1] "\U00010603"                                                                                                                                                                                    
[2] "\U0001076b"
[3] "\U00010631"
[4] "\U0001076b" 
...

我努力了

df <- c("\U00010603","\U0001076b\U00010631\U0001076b", "\U00010631\U00010633","\U0001061a\U00010655\U00010609\U00010631")

df1 <- strsplit(df, "\\", fixed = TRUE)

df1 <- lapply(df,strsplit, split = '\\', fixed = TRUE)

我還嘗試了\U0的各種 forms 。 謝謝您的幫助。 output 基本上是相同的輸入列表。

Answer 1

這些是 UNICODE 字符。 從名字就可以看出來。 因此拆分它們使用：

strsplit(df,"")
[[1]]
[1] "\U00010603"

[[2]]
[1] "\U0001076b" "\U00010631"          "\U0001076b"

[[3]]
[1] "\U00010631" "\U00010633"

[[4]]
[1] "\U0001061a" "\U00010655"          "\U00010609" "\U00010631"

請注意，第一個元素只有 1 個字符等。

在 R 中拆分 unicode 字符的字符串

問題描述

1 個解決方案

解決方案1
2 已采納 2020-06-12 19:18:42

在 R 中拆分 unicode 字符的字符串

問題描述

1 個解決方案

解決方案1 2 已采納 2020-06-12 19:18:42

解決方案1
2 已采納 2020-06-12 19:18:42