完全是新手,不知道我在做什么。 我已经在 windows 上安装了 ubuntu 现在可以从 Z0F4137ED1502B5045D6083AA25 打开 bash 我还从 Sourceforge 下载了 burrow-wheeler 对准器: https://sourceforge.net/pr ...
完全是新手,不知道我在做什么。 我已经在 windows 上安装了 ubuntu 现在可以从 Z0F4137ED1502B5045D6083AA25 打开 bash 我还从 Sourceforge 下载了 burrow-wheeler 对准器: https://sourceforge.net/pr ...
所以我试图将这个索引(int)和数据(字符串)实现到一个字典 class 中,它采用上述类型的索引和数据。 这是我的代码: 此代码适用于 <10KiB 的小文本文件,但当我输入大文本文件时,循环似乎永远运行。 它一直运行直到整个 memory 被使用,然后 IDE 崩溃。 我在这里做错了什 ...
我正在用 Python 编写 Burrows-Wheeler 变换及其逆向变换。 它适用于小字符串,但当我测试更大的字符串时它会崩溃。 在某些时候,字符串似乎循环了。 我确定它必须与解码器的最后一个循环有关,但我正在按照在多个网站上找到的步骤进行操作。 我的实现如下: 原始字符串: 罗斯特 ...
我正在尝试在 bwa 程序 (bwa sampe) 中处理具有匹配前缀和不同文件类型的多个输入文件,这是一般结构: bwa sampe /Users/xxx/Desktop/Index_align/GRCh37_latest_genomic.fna H2_S16_L001_read1.sai H2_ ...
bzip2 (即Julian Seward的程序 )列出了100k到900k之间的可用块大小: 该数字对应于写入压缩文件头中的hundred_k_blocksize值。 从文档中 ,内存要求如下: 在编写原始程序时(1996年),我想想760万(400k + 8 * 900 ...
我想问一下,我们可以结合使用BWT MTF和霍夫曼算法来在Java中获得更高的压缩率吗? 流程将如何? 写入MTF文件时出错? ...
我正在研究Burrows-Wheeler变换,到目前为止,我可以从某些Text中获得它。 现在是时候进行反向过程了,这就是我遇到的麻烦。 输入如下:TTCCTAACG $ A。 那是我的思维方式: 1)计算输入中的As,Cs,Gs,Ts的数目:A:3,C:3,G:1,T:3 ...
上面是我当前在Lua中实现BWT编码的代码。 问题在于表的大小和循环的长度,这需要很长时间才能运行。 对于1000个字符的输入,平均编码时间约为1.15秒。 有没有人建议提供更快的BWT编码功能? 最大的减速似乎出现在fLexTblSort和fShallowCopy中。 我还包括 ...
通常在 Burrows-Wheeler 变换算法中,一个 $ 字符用来表示字符串的结束,但在很多情况下,这个 $ 被省略了。 我想知道如何在不知道最后一个字符的位置的情况下反转它? 例如,我有这个 BWT: [[[[[1[[11endgnad1234245ndbnbbb]]]]]]]nn ...
我成功地为我正在编写的压缩测试平台实现了一个BWT阶段(使用常规字符串排序)。 我可以应用BWT然后反BWT变换,输出匹配输入。 现在我想加速使用后缀数组创建BW索引表。 我找到了2个相对简单的,假设快速的O(n)算法用于后缀数组创建, DC3和SA-IS都带有C ++ / C源代码。 ...
如何在Clojure中为Burrows-Wheeler转换惯用旋转字符串? 我想出了这个,它使用(cycle "string") ,但感觉有点必要: 我不确定这是否符合代码高尔夫的要求。 有更清洁的方法吗? ...
我已经实现了Burrows-Wheeler变换(BWT)的正向变换。 现在的问题是我无法逆转。 考虑p: BWT的前瞻: 反向的方式是: 请有人帮我。 ...
Burrows-Wheeler Aligner(BWA),一种生物信息学工具(算法),用于将短核苷酸序列定位到参考基因组。 我试图使用Hadoop Streaming运行BWA,但出现错误。 命令: 错误信息: 请提出如何解决此问题的建议? 谢谢你的帮助。 ...
如果我们将此aaabccba视为输入字符串, baaacacb在对输入应用Burrows-Wheeler变换后, baaacacb将成为输出字符串。 观察输出,您会看到两个成簇的c是分开的。 显而易见,输入字符串将比输出字符串产生更好的压缩效果。 如何确定是否对输入字符串应用Burro ...
使用BWT后,编码数据中需要哪些数据集? 我们是否需要编码(或导出)后缀数组? 输入: stackoverflow BWT输出: wtavrcfkle$soo 后缀数组: 13, 2, 3, 7, 9, 4, 10, 5, 11, 8, 0, 1, 6, 12 ...
似乎很多实现BWT的压缩器将它与算术编码或霍夫曼编码结合使用。 (随意提名更多,特别是如果他们更好。) 我的第一个问题是:为什么字典编码器(例如LZW或LZSS)在使用BWT时会更糟糕? 我的第二个问题是:哪个是最好的全能算法? ...
我是编码的新手,所以我试图了解基础知识。 我碰到了一个描述无损文本压缩技术的文档,该文档中的图说明了其压缩的工作方式。 它的工作原理如下: 我不明白为什么他们会在移动到前端变换后使用运行长度变换,这对我来说似乎并不有效。 据我了解,MTF本身不会产生很多运行,因此使用RLT后记不会 ...
我尝试过在掘轮机循环字符串数组中旋转一个很大的字符串。 但是我的输入大约是200000个字符,当输入那么大时,由于堆空间不足,我无法运行代码。 我的教授说,实现它的唯一方法是线性内存占用。 我不知道这意味着什么。 我能知道其他什么方法来创建一个高效的循环字符串,并在不耗尽内存 ...
我一直在尝试重新创建Wikipedia上的Burrows-Wheeler转换示例。 为了增加乐趣,我试图通过递归策略来做到这一点。 但是,我陷入了第一步,创建了字符串的所有旋转。 这是我的代码: 这将产生以下输出: 这类似于Wikipedia的示例,但不完全相同,我似乎无法 ...
在转换了“abracdabra!”的输入文本之后,我的变换向量是[3,0,5,6,7,9,10,8,2,1,4],然后通过更多的转换来传输文本。压缩到磁盘。 关闭程序后,我们显然无法再访问转换向量。 我们是否希望将转换向量写入磁盘? 矢量的大小实际上不等于n个字符吗? 这实际上不会增 ...