cost 68 ms
AWK 根据 TABLE1 替换 TABLE2 中的完整字符串 - AWK replace full string in TABLE2 according to TABLE1

我有 TABLE1,其中第一列是应该在 TABLE2 中替换的字符串,TABLE1 中的第二列是应该替换字符串的值。 TABLE1 看起来像这样: 表 2 看起来像这样的例子: 所以我组装了 awk 命令 它的工作达到了极限,例如,值 MYL9 不会仅替换字符串 g63。 还有 g630、g631 ...

如何使用 awk 打印包含特定子字符串的字段? - How to print fields containing specific substrings with awk?

目标:将输入文件中的字段打印到输出文件,但要特别注意用分号分隔的特定字段( ; - 请参阅下面示例输入的字段九)。 示例输入(input.txt): 所需的输出(output.txt): 仅对于 $3 是“基因”的那些输入行... 第 1 列:$9 的“gene_id”子字符串第 2 列: ...

基于组将数据添加到 dataframe - Adding data to a dataframe based on groups

我正在处理生物信息学数据,每行都有一个基因,列中有统计信息/元数据。 一些基因来自同一生物体,由“ID”列指示,我将数据分组在这个变量上。 我想根据 ID(分组因子)添加来自另一个文件的数据,以便 ID = a 的行应该具有来自名为 a.gff 的文件的数据,依此类推。 我要添加的数据来自包含基因 ...

Sed shell 中的 function 应用于目录中的 all.gff 文件 - Sed function in shell applied to all .gff files in a directory

我正在使用 .gff3 文件尝试删除目录中许多文件底部的重叠群序列。 重叠群序列与带有##FASTA 的文件的 rest 分开,我希望删除下面的所有内容(DNA 序列,FASTA 格式)。 此脚本适用于一个文件: 但是当我尝试将它应用于这样的目录中的所有文件时失败了: 任何帮助表示赞赏! ...

Bcbio-gff 文件创建问题 - Bcbio-gff File creation issue

使用 GFF.write() 创建文件时,我得到一个以“annotation remark”为源的新行,然后是序列区域的 ASCII 编码: 知道为什么它在这里,它的用途以及我如何避免它? 我担心在第三方软件中使用它可能会成为问题。 我只导入了 bcbio-gff package,但我相信它是 Bi ...

Pandas 中的单元格值到列名 - Cell value to column name in pandas

我有以下熊猫数据框(它是一个gff文件): 列attr中的值实际上是附加列,但文件格式gff不允许这样做。 我想将此列中的文本拆分为多列。 值是广义的字典,意思是每个键都有一个值,用=分隔(例如accession=Tname16C00001.1 ),每个键值对用;分隔; . 我首先将每个键值 ...

如何在 FASTA 文件中找到基因的第一个碱基的编号? - How can I find the number of the first base of a gene in a FASTA file?

为了手动修改我拥有的 .gff 文件,我需要在我的动物的 FASTA 格式的基因组中找到我的基因的起始位置(即它在序列中的 # 碱基是什么?)。 我有这个基因的序列。 我如何尽可能轻松地做到这一点(这不是一种可以在互联网上轻松获得基因组的动物)? 我所拥有的:基因组,FASTA 格式; 包含该生 ...

使用多个参数进行解析-AWK - parsing using multiple parameters - Awk

我在解析GFF文件时遇到问题。 我使用下面的代码作为一个班轮。 我正在获得基于列1($ 1)进行过滤的输出,但是当我添加大于5000但小于150000的其他过滤器时,awk不会适当地过滤出我的文件。 我误会了一些东西,我不太确定它是什么。 输入 我正在获取错误的输出 ...

使用awk提取特定模式 - using awk to extract a specific pattern

我解释我的问题。 我有一个gff格式的巨大文件,例如: 依此类推...然后我想找到一条命令,提取其第一CDS以a密码子阶段0(第7列)开头的FIRST CDS,以及其FIRST CDS以1或a开头的那一部分。 2.然后,我想获取3个文件,这里是: 第一个文件:抄本的第一个CD ...

将一个文件中的多行替换为另一文件中相同的行号? - Replace multiple lines in one file with the same lines at the same line numbers in another file?

我有一个修改的gff文件,它缺少原始gff文件中存在的某些行。 我想重新添加这些。 即,原始gff文件在每个新重叠群之前包含额外的行“#Fasta ...”和“ ## sequence-region”: 1#Fasta定义行:> contig00047 2 ## sequ ...

重命名gffile中的名称ID。 - Renaming Name ID in gffile.

我有一个gff文件,看起来像这样: 我希望重命名ID名称,从0001开始,这样对于上述基因,该条目为: 上面的示例仅是一个基因输入,但是我希望重命名所有基因及其对应的mRNA /外显子,从ID = dd_0001开始。 任何有关如何执行此操作的提示将不胜感激。 ...

2017-03-23 17:26:58   1   214    python / gff  
使用sed从一行中一次提取两段文本 - use sed to extract two pieces of text at once from a line

好吧,我在SO上找到了类似的答案,但是我的sed / grep / awk fu非常糟糕,以至于我无法完全适应我的任务。 这是,给定此文件“test.gff”: 我想提取两个值1)文本在“ID =”的右边,分号和2)文本在“product =”的右边,直到行的结尾或分号(因为你可以看到 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM