繁体   English   中英

在hadoop中,可以通过knox + webhdfs访问的数据大小是否受到限制?

[英]In hadoop, Is there any limit to the size of data that can be accessed through knox + webhdfs?

在hadoop中,可以通过knox + webhdfs访问/提取到HDFS的数据大小是否受到限制?

当您需要从受防火墙保护的群集外部访问webhdfs资源时,Apache Knox是您的最佳选择。 如果您无权访问所有的datanode端口,那么直接访问webhdfs将对您不起作用。 为所有这些主机:端口打开防火墙漏洞会破坏防火墙的目的,带来管理方面的噩梦,并不必要地将网络详细信息泄露给外部客户端。

正如Hellmar指出的,这取决于您的特定用例和客户端。 如果需要提取大文件或大量文件,则可能需要考虑使用其他方法来访问这些客户端的集群内部。 如果您只需要访问任何大小的文件,那么您应该能够将该访问权限扩展到许多客户端。

不必使用kerberos / SPNEGO进行身份验证即可访问此类资源,这会打开许多​​可能的客户端,否则这些客户端将无法在安全集群中使用。

Knox用户指南提供了访问webhdfs资源的示例-您可以找到它们: http ://knox.apache.org/books/knox-0-7-0/user-guide.html#WebHDFS-这也说明了基于groovy的情况脚本可以从Knox获得。 这使您可以做一些非常有趣的事情。

从理论上讲,没有限制。 但是,使用Knox会造成瓶颈。 纯WebHDFS会将对每个块的读/写请求重定向到(可能是)不同的数据节点,从而并行化访问; 但是使用Knox时,所有内容都通过单个网关进行路由并进行序列化。

话虽如此,您可能不想使用Knox和WebHDFS上传大文件。 这只会花费太长时间(并且可能会因超时而定,具体取决于您的客户端)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM