繁体   English   中英

我收集了大量相同性质的小文件。 我可以对它们全部构建字典,但分别压缩每个文件吗?

[英]I have a large collection of small files of the same nature. Can I build dictionary on them all but compress each file individually?

语料库由字符串(文件名)及其校验和组成,所以我希望它的熵高于普通文本。 另外,该集合太大而无法分析,因此我将对其进行采样以创建全局字典。 我的任务是否有花哨的机器学习方法?

我应该使用哪种算法或更优的库?

我正在使用python以防万一。

我建议您使用稀疏编码 它使您可以使用数据集来推断出一个不完整的字典,然后将其用于编码数据。 如果您的数据确实具有相似的性质,那么这对您来说可能会很好。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM