我从我的 windows 运行 Python 3.11.3,并尝试使用 PyVCF 模块。 我在我的电脑上检查了我的 Python 版本,没有发现双安装,只安装了 1 个 python 版本。 我的电脑里有 sublime text 和 VS Code。 但是当我尝试导入时我得到了这个导入 vcf ...
我从我的 windows 运行 Python 3.11.3,并尝试使用 PyVCF 模块。 我在我的电脑上检查了我的 Python 版本,没有发现双安装,只安装了 1 个 python 版本。 我的电脑里有 sublime text 和 VS Code。 但是当我尝试导入时我得到了这个导入 vcf ...
我在插补后获得的 vcf 文件中有超过 20k 个人的基因型。 我会给你一个这个 vcf 文件的方面的例子,只有 7 个样本: 因此,从第 10 列开始,个体的基因型开始。 现在,我需要修改这个 vcf 文件的个别代码,以便拥有一个具有以下方面的 vcf 文件: 因此,我只需要序列号,不需要侧翼的东 ...
我需要从我的 vcf 文件中删除“chr”。 这是 vcf 文件的方面: 我想要以下一个 我尝试了以下几种方法: 但它们不起作用……有什么建议吗? 谢谢你! ...
我想修改这个命令并创建一个命令来过滤带有“val”标志和超过 2 个“PASS”的行。 有什么建议吗? 此命令只能与一个 PASS 一起使用: awk '{if(($5=="val") && ($0 ~ /PASS/ )) {print $0}}' sample.vcf ...
我正在按照教程从 G.NETIX (extension.gtx)、STRUCTURE (.str or.stru)、FSTAT (.dat) 和 Genepop (.gen) 文件格式计算 R 中的人口 g.netics 统计数据。 https://github.com/thibautjomba ...
有人知道最大 VCF 质量分数是否在某处明确定义吗? 提前致谢:) 我有一个包含大约 830 万个变体的 VCF 文件。 我想知道 VCF 文件中的质量分数是否有限制。 我发现的最高质量是 999。我的 VCF 文件中大约有 20% 的质量得分为 999,因此我假设这是最大值。 我只是不确定并想将此 ...
我从 gnomad - https://gnomad.broadinstitute.org/downloads下载了一些数据。 它以 VCF.bgz 文件的形式出现,我想将其作为 vcf 文件阅读。 我在这里找到了一些代码: @rnorris 在 Linux 中部分扩展 VCF bgz 文件。 我在 ...
我有一个变体剂量矩阵,并且想要计算数据帧dose_df的每个变体(行)的次要等位基因频率(MAF)。 我想问你是否正确地说变体的等位基因频率 (AF) 将通过考虑一行中每个值的sum除以个体总数的两倍来计算。 然后如果 AF 值小于 0.5 将被视为 MAF,否则1-AF_value将是 MAF 值 ...
我正在尝试分析从 1000 基因组项目 .vcf 文件生成的一个简单但“大”(52MB) 的 .ped 文件:它有 107 行和 248189 列。 我不关心前 6 列,我感兴趣的那些只包含字母'A'、'C'、'G'、'T',我需要计算它们的频率。 它要么只是其中之一,要么是两者的组合(例如 A,A ...
自从我编写 R 代码以来已经有一段时间了,我现在正试图与 data.table 相处。 现在我有一个 data.table (来自变体调用),我想用单词替换一些值。 我认为 fcase() 在这里会很好,但我无法让它工作。 这是我的工作代码: 因此,它所做的是将所有 0/0、0|0 替换为“RE ...
我有一个vcf.gz格式的文件(例如file_name.vcf.gz )——我需要在 Python 中以某种方式读取它。 我明白,首先我必须解压缩它,然后才能阅读它。 我找到了这个解决方案,但不幸的是它对我不起作用。 即使对于第一行( bgzip file_name.vcf或tabix file_ ...
我正在尝试根据注释文件中存在的染色体和基因组范围过滤 VCF 文件。 我的注释文件如下所示: 铬 开始 结尾 chr1 64833245 65067732 chr ...
我有一个 vcf 文件。 我需要更新我的 vcf 文件中的 ID 列。 这是我的 vcf 文件的样子: 0797 NA20798 NA20799 NA20800 NA20801 NA20802 NA20803 NA20804 NA20805 NA20806 NA20807 NA20808 NA2 ...
我对我的问题有一个可行的解决方案,但速度很慢。 我很好奇推荐的加速方法,看看它能多快。 这是一个示例输入文件 目标是从value列中取出第一个和第三个字符并对它们求和,然后 output 一个类似的文件,其中值列替换为这个总和。 前两行示例 output: 这是我当前的解决方案,其中 STDIN 1 ...
我正在使用 vcf 文件(使用 bcftools 生成)使用 plink 软件创建 map 文件。 我正在使用的命令是 output.map 文件看起来像这样 为什么它在第三列输出零?,以及如何解决这个问题? ...
我有一个 vcf,想要 select 100 个基因,对于每个基因,select 一个 SNP? 从技术上讲,如果我们考虑一个基因,它有许多 rsid 映射到它。 对于我的分析,我需要 select 100 个基因,对于每个基因 select 只有一个 SNP,忽略其他基因,并有一个最终的 vcf ...
我目前正在写我的论文,我正在尝试分析 Illumina 的 NGS 测序结果。 我对生物信息学不是很熟悉,在我项目的这一部分,我正在尝试比较两个对应于健康组织和肿瘤组织结果的两个 vcf 文件。 我想比较这些 vcf 文件并删除它们的相似之处。 更具体地说,我想从肿瘤组织中删除健康组织的信息。 您对 ...
我是这样安装的: 然后像这样安装人类缓存: 但我无法使用任何命令运行它,例如 这给出了有关下载缓存的错误消息: 或者这个: 这给出了错误: 我想没有人能指出我正确的方向吗? ...
我已经在 conda 中安装了 vep,如下所示: 然后我像这样安装了人类缓存: 但是当我尝试运行 vep 时出现错误: 难道我做错了什么?? ...
我是一名高中生,正在做一个生物信息学项目,但我似乎找不到可以让我在不破坏数据的情况下查看 Variant Call Format 文件的软件。 如果我有一台 Windows 计算机,我会使用 MobaXTerm 来查看它,但这在 macOS 上不可用,所以...... 任何人都知道正确查看VCF文 ...