如何在 Rstudio 中 ape 包的 ace 函數的腳本中擬合我的數據和問題？

Question

我有 96 個氨基酸序列，我用 MAFFT 比對並手動修剪（FASTA 格式），用 ProtTest 選擇氨基酸替換模型（LG+I+G 模型），用 MEGAX 進行系統發育重建（ML 方法，bootstrap test 1000復制，Newick 格式的樹）和使用 PAML 的祖先重建，總共 664 個最終氨基酸位置。 但是，我的對齊方式有插入缺失。 我用字母（A 到 T）和相應的酰胺酸位置范圍命名每個 indel：A:89-92, B:66-67, C:181-186, D:208-208, E:214-219 , F:244-250, G:237-296, H:278-280, I:295-295, J:329-334, K:345-349, L:371-375, M:390-425, N :432-433, O:440-443, P:480-480, Q:500-500, R:541-544, S:600-600。 序列的初始部分和最后部分都非常可變，因此從位置 0 到 34（初始）和 600 到 664（最終），每個氨基酸位置都可能代表一個插入缺失。

我想知道，在每個祖先節點上，每個 indel 出現在祖先序列中的概率是多少。 有人告訴我，“猿 - 系統發育和進化分析”包上的 R-studio“ace”功能可以執行此任務。 我已經安裝了“ape”和“ggtree”。 我檢查了這個網頁https://www.rdocumentation.org/packages/ape/versions/3.0-1/topics/ace ，但是，我不知道如何構建腳本。 我是一名生物學家，也是 R 的新手。

有人可以幫忙嗎？ 將不勝感激，謝謝。

Answer 1

很難從您的示例中確切地弄清楚您需要什么，但以下內容可能符合總體思路：

1 - 在`R`加載你的樹

對於這一步，您可以根據您的樹格式使用函數read.tree或read.nexus ：即您的系統發育軟件是否輸出 NEXUS 文件（通常這些文件中的第一行是#NEXUS ，最后一行是end;或END; ) 或 newick 輸出（通常，第一行直接以類似((my_species...並以; ((my_species...的系統發育開始。您可以找到該文件，然后在 R 中使用以下命令讀取它：

## Loading the package
library(ape)
## Reading the tree
my_tree <- read.tree("<the_path_to_your_file>")

2 - 在`R`加載特征數據

然后，您需要將特征數據（例如您上面列出的 indels 位置） data.frame為matrix或data.frame 。 最簡單的方法是將它們以.csv格式（“逗號分隔值”）保存，然后您可以使用函數read.csv在R讀取read.csv ：

## Reading the variables as a matrix
my_variables <- read.csv("<the_path_to_your_file>")

3 - 運行祖先性格估計

最后，您可以使用包ape的ace函數為每個變量運行您的祖先特征估計：

## Selecting the variable of interest (e.g. the first column of the dataset)
one_variable <- my_variables[, 1]
## Running the ancestral character estimation for this variable
my_ace <- ace(x = one_variable, phy = my_tree, type = "discrete")
## Looking at the results
my_ace

當然還有更多內容，但希望這可以讓您開始。

如何在 Rstudio 中 ape 包的 ace 函數的腳本中擬合我的數據和問題？

問題描述

1 個解決方案

解決方案1
0 2021-07-09 11:07:15

1 - 在`R`加載你的樹

2 - 在`R`加載特征數據

3 - 運行祖先性格估計

如何在 Rstudio 中 ape 包的 ace 函數的腳本中擬合我的數據和問題？

問題描述

1 個解決方案

解決方案1 0 2021-07-09 11:07:15

1 - 在R加載你的樹

2 - 在R加載特征數據

3 - 運行祖先性格估計

解決方案1
0 2021-07-09 11:07:15

1 - 在`R`加載你的樹

2 - 在`R`加載特征數據