簡體   English   中英

使用R修剪DNA序列

[英]Trim DNA sequence using R

我有一個DNA序列文件,許多序列都以“ CCCATGCAGACATAGTG”或“ CTCCATGCAGACATAGTG”開頭,並且我的標簽序列為“ ATGCA”。 我要刪除所有“ ATGCA”以及“ CC”和“ CTC”。 因此最終產品將是“ GACATAGTG”。

有誰知道任何R函數都能做到這一點? 我嘗試用biostrings中的trimLRPatterns進行操作,但是由於它僅從末尾進行修剪而不在序列內進行修剪,因此無法正常工作。 如果您有任何解決方案,請告訴我。 謝謝。

嘗試這個:

# dummy DNA
myDNA <- c("CCCATGCAGACATAGTG","CTCCATGCAGACATAGTG")
# define tag
tag <- "ATGCA"

# remove any character(s) before tag, including tag.
gsub(paste0("^.*",tag),"",myDNA)

# output
# [1] "GACATAGTG" "GACATAGTG"

您可以使用gsub。 例如

gsub(“ ATGCA”,“”,“ CCCATGCAGACATAGTG”)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM