[英]I have 25 .csv files (each file is a scribe) all in same structure (X, Y and STATUE). I want to combine all of them into one large .txt file
[英]I have a large collection of small files of the same nature. Can I build dictionary on them all but compress each file individually?
语料库由字符串(文件名)及其校验和组成,所以我希望它的熵高于普通文本。 另外,该集合太大而无法分析,因此我将对其进行采样以创建全局字典。 我的任务是否有花哨的机器学习方法?
我应该使用哪种算法或更优的库?
我正在使用python以防万一。
我建议您使用稀疏编码 。 它使您可以使用数据集来推断出一个不完整的字典,然后将其用于编码数据。 如果您的数据确实具有相似的性质,那么这对您来说可能会很好。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.