繁体   English   中英

如何为搜索和重复数据删除在Linux文件系统上的文件元数据中添加md5 sum?

[英]How to add md5 sum to file metadata on a Linux file-system for the purpose of search and de-duplication?

我有大量文件,有时会重复使用不同名称的重复文件,并希望向文件系统添加类似fslint的功能,以便可以将其删除重复数据,然后根据已知的md5检查在指定位置创建的任何新文件价值观。 目的是在对整个文件集合进行初始求和之后,开销较小,因为它只需要将新文件的md5和与现有和的存储进行比较即可。 该检查可以是日常工作,也可以作为文件提交过程的一部分。

checkandsave -f newfile -d destination

这个工具已经存在了吗? 存储fileid-md4sum对的最佳方法是什么,以使对新文件的总和的搜索尽可能快?

重新使用rmlink:

rmlink将校验和存储在哪里,还是每次运行都重复进行该工作? 我想将校验和添加到文件元数据(或某种优化搜索速度的存储形式)中,以便当我有一个新文件时,生成它的总和,并针对所有相同文件的现有总和进行核对尺寸。

是的, rmlint可以通过--xattr-read --xattr-write选项执行此操作。

Cron工作将类似于:

/ usr / bin / rmlint -T df -o sh:/home/foo/dupes.sh -c sh:link --xattr-read --xattr-write / path / to / files

-T df表示仅查找重复文件

-o sh:/home/foo/newdupes.sh指定将输出报告/ shell脚本放在哪里(如果需要)

-c sh:link指定shell脚本应使用硬链接或符号链接(或btrfs上的reflinks)替换重复项

请注意, rmlint仅在必要时计算文件校验和,例如,如果只有一个给定大小的文件,则没有重复的机会,因此不会计算校验和。

编辑:校验和存储在文件扩展属性元数据中。 缺省使用SHA1,但是您可以通过-a md5将其切换为md5。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM