從行中刪除非英文字符串：R

Question

我有幾個變量，其數據（行）包含英文字符串，后跟非英文翻譯（印地語）。

例如 Carpenter（木匠的印地語詞）

有沒有辦法剝離行以僅包含英文部分？ 印地語導致應用函數出現問題，因此我希望將它們刪除。

Answer 1

這是使用 base R 的iconv()另一個選項，它僅刪除非拉丁腳本：

s <- 'Carpenter (बढ़ई)'
iconv(s, "latin1", "ASCII", sub="")
# [1] "Carpenter ()"

應用於數據框：

df <- data.frame(rbind('Carpenter (बढ़ई)',
    'Cat (बिल्ली)'))
sapply(df,iconv, from="latin1", to="ASCII",sub="")
# [1,] "Carpenter ()"                           
# [2,] "Cat ()"

Answer 2

我設法通過使用正則表達式 (regex) 和stringr包去除了文本的英文部分。 下面是一個示例數據框和結果輸出。

library(tidyverse)
library(stringr)

df <- tibble(
      complete_wrd = c(
             "carpenter (Hindi word for carpenter)",
             "cat (Hindi word for cat)",
             "dog (Hindi word for dog)"))


df %>%
   mutate(engl_wrd = stringr::str_extract(complete_wrd, "^.*?\\S*"))


# A tibble: 3 x 2
  complete_wrd                         engl_wrd 
  <chr>                                <chr>    
1 carpenter (Hindi word for carpenter) carpenter
2 cat (Hindi word for cat)             cat      
3 dog (Hindi word for dog)             dog

Answer 3

另一種方法你可以試試

library(dplyr)
library(stringr)
df %>% 
mutate(hindi_text = str_remove(hindi_text, "\\(.*\\)"))
#             hindi_text
# 1 Construction Labourer
# 2                Other

數據

df <- data.frame(hindi_text = c("Construction Labourer(सभी प्रकार के निर्माण मजदूर)", "Other(उपरोक्त के अतिरिक्त) "))

從行中刪除非英文字符串：R

問題描述

3 個解決方案

解決方案1
1 已采納 2020-09-03 18:18:35

解決方案2
0 2020-09-03 17:21:40

解決方案3
0 2020-09-04 02:58:16

從行中刪除非英文字符串：R

問題描述

3 個解決方案

解決方案1 1 已采納 2020-09-03 18:18:35

解決方案2 0 2020-09-03 17:21:40

解決方案3 0 2020-09-04 02:58:16

解決方案1
1 已采納 2020-09-03 18:18:35

解決方案2
0 2020-09-03 17:21:40

解決方案3
0 2020-09-04 02:58:16