簡體   English   中英

從由區域標記的單元格中提取文本

[英]Extract text from cells marked by regions

我不知道如何描述這個問題。 我為有史以來最模糊的標題道歉。

這就是數據的樣子

[我們]德福泰克
[jp]<U+306F><U+3061><U+307F><U+3064>(親愛的)
禮籃
[jp]<U+3067><U+3055><U+3093><U+3068>(下降)
[jp]<U+5E73><U+30DC><U+30E0>(平炸彈)
[jp]<U+30A2><U+30AD><U+30E9>(阿基拉)
出球
[jp]手古魯
[jp]梅爾蒂

因此,Hampern 和 Balls Out 的名稱提取得很好,但其他我無法從中提取任何東西。

library(httr)
library(tidyverse)
library(jsonlite)

fromJSON(rawToChar(GET("https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200")$content))$data %>% 
  select(players) %>% 
  unnest(players) %>% 
  select(name) %>% 
  mutate(name_extract = str_extract(name, "[A-Za-z]*")) %>% 
  na.omit()

您可以從name中刪除[us][jp]部分。

library(httr)
library(dplyr)
library(jsonlite)

fromJSON(rawToChar(GET("https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200")$content))$data %>% 
   select(players) %>% 
   unnest(players) %>%
   select(name) %>% 
   mutate(name_extract = sub('\\[.*\\]', '', name)) %>%
   na.omit

#   name                    name_extract       
#   <chr>                   <chr>              
# 1 [us]Deftek              Deftek             
# 2 [jp]はちみつ (Honey)    はちみつ (Honey)   
# 3 Hampern                 Hampern            
# 4 [jp]でさんと (Descente) でさんと (Descente)
# 5 [jp]平ボム (Hirabomb)   平ボム (Hirabomb)  
# 6 [jp]アキラ (Akira)      アキラ (Akira)     
# 7 Balls Out               Balls Out          
# 8 [jp]Teguru              Teguru             
# 9 [jp]えるも (Erumo)      えるも (Erumo)     
#10 [jp]Melty               Melty              
# … with 88 more rows

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM