[英]How to add md5 sum to file metadata on a Linux file-system for the purpose of search and de-duplication?
我有大量文件,有时会重复使用不同名称的重复文件,并希望向文件系统添加类似fslint的功能,以便可以将其删除重复数据,然后根据已知的md5检查在指定位置创建的任何新文件价值观。 目的是在对整个文件集合进行初始求和之后,开销较小,因为它只需要将新文件的md5和与现有和的存储进行比较即可。 该检查可以是日常工作,也可以作为文件提交过程的一部分。
checkandsave -f newfile -d destination
这个工具已经存在了吗? 存储fileid-md4sum对的最佳方法是什么,以使对新文件的总和的搜索尽可能快?
重新使用rmlink:
rmlink将校验和存储在哪里,还是每次运行都重复进行该工作? 我想将校验和添加到文件元数据(或某种优化搜索速度的存储形式)中,以便当我有一个新文件时,生成它的总和,并针对所有相同文件的现有总和进行核对尺寸。
是的, rmlint可以通过--xattr-read --xattr-write
选项执行此操作。
Cron工作将类似于:
/ usr / bin / rmlint -T df -o sh:/home/foo/dupes.sh -c sh:link --xattr-read --xattr-write / path / to / files
-T df
表示仅查找重复文件
-o sh:/home/foo/newdupes.sh
指定将输出报告/ shell脚本放在哪里(如果需要)
-c sh:link
指定shell脚本应使用硬链接或符号链接(或btrfs上的reflinks)替换重复项
请注意, rmlint
仅在必要时计算文件校验和,例如,如果只有一个给定大小的文件,则没有重复的机会,因此不会计算校验和。
编辑:校验和存储在文件扩展属性元数据中。 缺省使用SHA1,但是您可以通过-a md5
将其切换为md5。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.