标签[gff] - 堆栈内存溢出

AWK 根据 TABLE1 替换 TABLE2 中的完整字符串 - AWK replace full string in TABLE2 according to TABLE1

我有 TABLE1，其中第一列是应该在 TABLE2 中替换的字符串，TABLE1 中的第二列是应该替换字符串的值。 TABLE1 看起来像这样：表 2 看起来像这样的例子：所以我组装了 awk 命令它的工作达到了极限，例如，值 MYL9 不会仅替换字符串 g63。还有 g630、g631 ...

sed 使用 while 循环很慢 - sed using while loop is very slow

我有gff文件，内容如下（制表符分隔）：我想将1Chr.g1 、 1Chr.g2 、 2Chr.g1和2Chr.g2的基因 ID 替换为从g1开始到 ID 结尾的顺序，如本例中的g4 。预计 Output 我写了下面的 bash 脚本，但是时间太长了，因为我试图计算它的时间，所以对于一个sed来 ...

处理来自 MISA 的 gff 文件 - Handleing gff file from MISA

用基序长度替换 BED 文件中的整列我正在使用 MISA 挖掘 STR，我从 gff 文件中收集数据以制作包含 5 列的 BED 文件。染色体|开始|结束|基序长度|基序。但是第 4 列显示了我的 BED 文件的重复示例的次数我想将第 4 列替换为Motif length 。我试过了但是没用 ...

如何使用 awk 打印包含特定子字符串的字段？ - How to print fields containing specific substrings with awk?

目标：将输入文件中的字段打印到输出文件，但要特别注意用分号分隔的特定字段（ ; - 请参阅下面示例输入的字段九）。示例输入（input.txt）：所需的输出（output.txt）：仅对于 $3 是“基因”的那些输入行... 第 1 列：$9 的“gene_id”子字符串第 2 列： ...

Biopython 解析 gff 特征以提取 CDS - Biopython parsing over gff features to extract CDS

您好，我正在尝试在biopython的帮助下使用 gff 文件从 fasta 文件中提取编码序列（ https://biopython.org/wiki/GFF_Parsing ）我已经尝试过按照本教程的描述进行操作，但由于某种原因，我似乎没有做对：当我遍历序列记录的特征时，只有 'gff_ty ...

基于组将数据添加到 dataframe - Adding data to a dataframe based on groups

我正在处理生物信息学数据，每行都有一个基因，列中有统计信息/元数据。一些基因来自同一生物体，由“ID”列指示，我将数据分组在这个变量上。我想根据 ID（分组因子）添加来自另一个文件的数据，以便 ID = a 的行应该具有来自名为 a.gff 的文件的数据，依此类推。我要添加的数据来自包含基因 ...

Sed shell 中的 function 应用于目录中的 all.gff 文件 - Sed function in shell applied to all .gff files in a directory

我正在使用 .gff3 文件尝试删除目录中许多文件底部的重叠群序列。重叠群序列与带有##FASTA 的文件的 rest 分开，我希望删除下面的所有内容（DNA 序列，FASTA 格式）。此脚本适用于一个文件：但是当我尝试将它应用于这样的目录中的所有文件时失败了：任何帮助表示赞赏！ ...

Bcbio-gff 文件创建问题 - Bcbio-gff File creation issue

使用 GFF.write() 创建文件时，我得到一个以“annotation remark”为源的新行，然后是序列区域的 ASCII 编码：知道为什么它在这里，它的用途以及我如何避免它？我担心在第三方软件中使用它可能会成为问题。我只导入了 bcbio-gff package，但我相信它是 Bi ...

Pandas 中的单元格值到列名 - Cell value to column name in pandas

我有以下熊猫数据框（它是一个gff文件）：列attr中的值实际上是附加列，但文件格式gff不允许这样做。我想将此列中的文本拆分为多列。值是广义的字典，意思是每个键都有一个值，用=分隔（例如accession=Tname16C00001.1 ），每个键值对用;分隔; . 我首先将每个键值 ...

如何在 FASTA 文件中找到基因的第一个碱基的编号？ - How can I find the number of the first base of a gene in a FASTA file?

为了手动修改我拥有的 .gff 文件，我需要在我的动物的 FASTA 格式的基因组中找到我的基因的起始位置（即它在序列中的 # 碱基是什么？）。我有这个基因的序列。我如何尽可能轻松地做到这一点（这不是一种可以在互联网上轻松获得基因组的动物）？我所拥有的：基因组，FASTA 格式；包含该生 ...

使用多个参数进行解析-AWK - parsing using multiple parameters - Awk

我在解析GFF文件时遇到问题。我使用下面的代码作为一个班轮。我正在获得基于列1（$ 1）进行过滤的输出，但是当我添加大于5000但小于150000的其他过滤器时，awk不会适当地过滤出我的文件。我误会了一些东西，我不太确定它是什么。输入我正在获取错误的输出 ...

使用awk提取特定模式 - using awk to extract a specific pattern

我解释我的问题。我有一个gff格式的巨大文件，例如：依此类推...然后我想找到一条命令，提取其第一CDS以a密码子阶段0（第7列）开头的FIRST CDS，以及其FIRST CDS以1或a开头的那一部分。 2.然后，我想获取3个文件，这里是：第一个文件：抄本的第一个CD ...

将一个文件中的多行替换为另一文件中相同的行号？ - Replace multiple lines in one file with the same lines at the same line numbers in another file?

我有一个修改的gff文件，它缺少原始gff文件中存在的某些行。我想重新添加这些。即，原始gff文件在每个新重叠群之前包含额外的行“＃Fasta ...”和“ ## sequence-region”： 1＃Fasta定义行：> contig00047 2 ## sequ ...

重命名gffile中的名称ID。 - Renaming Name ID in gffile.

我有一个gff文件，看起来像这样：我希望重命名ID名称，从0001开始，这样对于上述基因，该条目为：上面的示例仅是一个基因输入，但是我希望重命名所有基因及其对应的mRNA /外显子，从ID = dd_0001开始。任何有关如何执行此操作的提示将不胜感激。 ...

使用sed从一行中一次提取两段文本 - use sed to extract two pieces of text at once from a line

好吧，我在SO上找到了类似的答案，但是我的sed / grep / awk fu非常糟糕，以至于我无法完全适应我的任务。这是，给定此文件“test.gff”：我想提取两个值1）文本在“ID =”的右边，分号和2）文本在“product =”的右边，直到行的结尾或分号（因为你可以看到 ...