繁体 English 中英

使用Java进行云中的重复数据删除

[英]Data Deduplication In Cloud WIth Java

原文 2019-06-05 15:23:07 1 1 java/ hash/ duplicates

我正在尝试使用Java在云中实现重复数据删除程序。

我不确定如何继续实施。

首先，我想对文件的大小，日期和名称进行简单的文件比较。 但是，这是无效的，因为文件可能具有相同的内容但名称不同。

我已经决定了一个简单的算法，即文件上传 - >文件分块 - > Rabin-karp哈希 - >确定是否可以上传文件。

这会没事或有任何改进吗？

我在哪里可以找到更多相关信息？ 我试过环顾互联网，但我找不到任何东西。 其中大部分内容只是分解为某些实现，但没有关于文件分块或Rabin-karp散列的解释或细节。

我想知道关于这个程序我应该研究哪些Java库。

1 个解决方案

如果你陈述你的问题限制会更容易。 假设如下：

最小的不可分割的数据单元是文件
文件相当小，不适合计算哈希的内存
您的文件位于某个云端桶中，或者您可以将其全部列出。 这也消除了相同的文件名。

你可以缩小你的问题范围。

使用一些快速哈希算法（如基本CRC校验和）迭代所有文件中的所有文件并构建映射。 （可以轻松并行化）。
过滤掉所有发生冲突的文件。 您可以轻松地省略其余的文件，这些文件实际上应该是非常合理的数据块。
使用加密哈希（或最坏情况，匹配整个文件）运行此剩余文件子集并识别匹配。

这可以根据基础数据进行细化。

然而，这就是我如何处理问题并给出其结构; 这个问题可以很容易地分区并以并行方式解决。 随意详细说明，以便我们能够找到一个好的解决方案。

java中重复数字的去重

[英]Deduplication of repeated numbers in java

Java 8的字符串重复数据删除功能

[英]String Deduplication feature of Java 8

使用Java Set进行重复数据删除

[英]Deduplication using a Java Set

在 Java 中使用 Flatbuffers 进行字符串重复数据删除

[英]String Deduplication with Flatbuffers in Java

Java8字符串重复数据删除和jruby - 没有影响？

[英]Java8 string deduplication and jruby - no effect?

在Java上使用评分框架/应用程序/服务器进行重复数据删除以与数据库输入登台一起使用

[英]Deduplication with scoring framework/application/server on Java to work with database input staging

Java 8 String重复数据删除与String.intern（）

[英]Java 8 String deduplication vs. String.intern()

Duke Fast Deduplication：java.lang.UnsupportedOperationException：尚不支持操作？

[英]Duke Fast Deduplication: java.lang.UnsupportedOperationException: Operation not yet supported?

使用没有 arrays (Java) 的扫描仪从文本文件中删除重复数据

[英]Deduplication from text file using scanner without arrays (Java)

用于从云API中提取数据的Java代码

[英]Java code to pull data from a cloud api

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 java中重复数字的去重 Java 8的字符串重复数据删除功能使用Java Set进行重复数据删除在 Java 中使用 Flatbuffers 进行字符串重复数据删除 Java8字符串重复数据删除和jruby - 没有影响？在Java上使用评分框架/应用程序/服务器进行重复数据删除以与数据库输入登台一起使用 Java 8 String重复数据删除与String.intern（） Duke Fast Deduplication：java.lang.UnsupportedOperationException：尚不支持操作？使用没有 arrays (Java) 的扫描仪从文本文件中删除重复数据用于从云API中提取数据的Java代码

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM