标签[hadoop-archive] - 堆栈内存溢出

如何使用 Hadoop 存档技术和所需的命令？ ...

我正在尝试从表中存档一些旧数据。使用ALTER TABLE TABLE_NAME ARCHIVE PARTITION(part_col)查询。表结构如下，现在，我正在尝试将特定分区的数据存档，如下所示，我可以使用以下方法直接在Hadoop中创建HAR： ...

我正在开发一个用于从数百万个小文件中创建1个Hadoop存档文件的应用程序。我已经通过命令行（ hadoop archive --archiveName foo.har -p / -r 2 test.txt / ）成功地进行了测试，但是我无法找到任何以编程方式进行操作的资源。知道如何 ...

我正在使用Hadoop Archive来减少Hadoop集群中的文件数量，但是为了保留数据，我希望尽可能长时间地保留数据。然后问题是Hadoop Archive没有减小文件夹大小（我的文件夹有多种类型的文件，无论是小文件还是大文件，那么不适合使用Sequence File）。我使用了 ...

我正在使用Hadoop，并面临着大量小文件的可怕问题。我需要能够从现有的配置单元分区中创建har存档，并同时对其进行查询。但是，Hive显然仅支持在托管表中而不是外部表中对分区进行归档，这很可悲。我试图通过使用hadoop的存档工具手动归档分区目录中的文件来找到解决方法。现在，我 ...

我每天都有小文件进入hdfs。我打算使用hadoop存档（HAR），但如何存档这些每天都包含在hdfs中的小文件。例如：今天我可能需要存档5个文件，明天如果还要再获取5个文件，则需要将其附加到前几天的存档中。 ...