簡體   English   中英

在 R 中拆分 unicode 字符的字符串

[英]splitting string of unicode characters in R

我有一列需要拆分的 unicode 字符,以便計算它們的頻率。 我嘗試了許多不同的方法來嘗試拆分這些,但沒有取得任何進展。 數據的輸入格式為

[1] "\U00010603"                                                                                                                                                                                    
[2] "\U0001076b\U00010631\U0001076b"                                                                                                                                                                
[3] "\U00010631\U00010633"
[4] "\U0001061a\U00010655\U00010609\U00010631"
... 

並且 id 像 output 是

[1] "\U00010603"                                                                                                                                                                                    
[2] "\U0001076b"
[3] "\U00010631"
[4] "\U0001076b" 
...

我努力了

df <- c("\U00010603","\U0001076b\U00010631\U0001076b", "\U00010631\U00010633","\U0001061a\U00010655\U00010609\U00010631")

df1 <- strsplit(df, "\\", fixed = TRUE)

df1 <- lapply(df,strsplit, split = '\\', fixed = TRUE)                                                                                                                                                               

我還嘗試了\U0的各種 forms 。 謝謝您的幫助。 output 基本上是相同的輸入列表。

這些是 UNICODE 字符。 從名字就可以看出來。 因此拆分它們使用:

strsplit(df,"")
[[1]]
[1] "\U00010603"

[[2]]
[1] "\U0001076b" "\U00010631"          "\U0001076b"

[[3]]
[1] "\U00010631" "\U00010633"

[[4]]
[1] "\U0001061a" "\U00010655"          "\U00010609" "\U00010631"         

請注意,第一個元素只有 1 個字符等。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM