![](/img/trans.png)
[英]Public Datasets on Azure Data Lake Store to use with Data Lake Analytics
[英]Reasons to use Azure Data Lake Analytics vs Traditional ETL approach
我正在考虑使用我最近几周一直在研究的Data Lake技术,与传统的ETL SSIS方案相比,我已经使用了这么多年。
我认为Data Lake与大数据密切相关,但使用Data Lake技术与SSIS之间的界限在哪里?
在25MB~100MB~300MB文件中使用Data Lake技术有什么优势吗? 并行? 灵活性? 未来可扩展吗? 当要加载的文件没有U-SQL最佳场景那么大时,是否有任何性能提升......
你怎么看? 是不是像用锤子敲打坚果? 请不要犹豫,问我任何问题,以澄清情况。 提前致谢!!
21/03编辑更多说明:
不要误会我的意思,我真的很喜欢ADL技术,但我认为现在,这是非常具体的事情,但仍然没有替代云中的SSIS。 你做什么的? 我错了吗?
对我来说,如果数据是高度结构化和关系型的,那么它的正确位置就是关系型数据库。 在Azure中,您有以下几种选择:
对于所有数据库选项,您可以使用群集列存储索引(ADW中的默认值),它可以提供5x到10x之间的大规模压缩。
一年400MB每年总计~143GB,在现代数据仓库术语中通常没有那么多,通常以兆兆字节(TB)为单位。
Azure Data Lake Analytics(ADLA)的用武之地,就是在普通的SQL中做不了的事情,比如:
ADLA还提供联合查询,能够“查询数据所在的位置”,即将数据库中的结构化数据与湖中的非结构化数据结合在一起。
您的决定似乎与您是否应该使用云有关。 如果您需要云的弹性和可扩展功能,那么Azure数据工厂是将数据从一个地方移动到另一个地方的工具。
HTH
小心。 由于过于宽泛,这个问题很可能会被关闭。
有许多论据支持和反对。 我们不能在这里讨论它们。
ADL不是SSIS的替代品。 顾问一如既往地回答...... 这取决于你做什么/想做什么。
一个简单的答案可能是。 ADL无限且高度可扩展。 SSIS不是。 但是,是的,由于可扩展性,ADL对小文件具有高入口点。
一般来说,我不认为这两种技术具有可比性。
如果您想在Azure中使用SSIS。 等待MS将其作为PaaS发布。 或者使用虚拟机。
我认为对于更简单的转换它可能是一个很好的解决方案,但是如果你有复杂性,通知等,它可能是不兼容的。 一个典型的场景就是将JSON文档转换为CSV,然后获取CSV并通过SSIS运行它以进行进一步的转换。 肯定有一个未来的状态将使U-SQL更强大,现在我认为U-SQL / ADLA / ADLS和SSIS有各自不同的用途。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.