[英]How can I fit my data and question in a script for the ace function of the ape pakage in Rstudio?
我有 96 個氨基酸序列,我用 MAFFT 比對並手動修剪(FASTA 格式),用 ProtTest 選擇氨基酸替換模型(LG+I+G 模型),用 MEGAX 進行系統發育重建(ML 方法,bootstrap test 1000復制,Newick 格式的樹)和使用 PAML 的祖先重建,總共 664 個最終氨基酸位置。 但是,我的對齊方式有插入缺失。 我用字母(A 到 T)和相應的酰胺酸位置范圍命名每個 indel:A:89-92, B:66-67, C:181-186, D:208-208, E:214-219 , F:244-250, G:237-296, H:278-280, I:295-295, J:329-334, K:345-349, L:371-375, M:390-425, N :432-433, O:440-443, P:480-480, Q:500-500, R:541-544, S:600-600。 序列的初始部分和最后部分都非常可變,因此從位置 0 到 34(初始)和 600 到 664(最終),每個氨基酸位置都可能代表一個插入缺失。
我想知道,在每個祖先節點上,每個 indel 出現在祖先序列中的概率是多少。 有人告訴我,“猿 - 系統發育和進化分析”包上的 R-studio“ace”功能可以執行此任務。 我已經安裝了“ape”和“ggtree”。 我檢查了這個網頁https://www.rdocumentation.org/packages/ape/versions/3.0-1/topics/ace ,但是,我不知道如何構建腳本。 我是一名生物學家,也是 R 的新手。
有人可以幫忙嗎? 將不勝感激,謝謝。
很難從您的示例中確切地弄清楚您需要什么,但以下內容可能符合總體思路:
R
加載你的樹對於這一步,您可以根據您的樹格式使用函數read.tree
或read.nexus
:即您的系統發育軟件是否輸出 NEXUS 文件(通常這些文件中的第一行是#NEXUS
,最后一行是end;
或END;
) 或 newick 輸出(通常,第一行直接以類似((my_species...
並以;
((my_species...
的系統發育開始。您可以找到該文件,然后在 R 中使用以下命令讀取它:
## Loading the package
library(ape)
## Reading the tree
my_tree <- read.tree("<the_path_to_your_file>")
R
加載特征數據然后,您需要將特征數據(例如您上面列出的 indels 位置) data.frame
為matrix
或data.frame
。 最簡單的方法是將它們以.csv
格式(“逗號分隔值”)保存,然后您可以使用函數read.csv
在R
讀取read.csv
:
## Reading the variables as a matrix
my_variables <- read.csv("<the_path_to_your_file>")
最后,您可以使用包ape
的ace
函數為每個變量運行您的祖先特征估計:
## Selecting the variable of interest (e.g. the first column of the dataset)
one_variable <- my_variables[, 1]
## Running the ancestral character estimation for this variable
my_ace <- ace(x = one_variable, phy = my_tree, type = "discrete")
## Looking at the results
my_ace
當然還有更多內容,但希望這可以讓您開始。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.