9月18日,在云栖大会上,AlibabaCloud正式发布大数据平台新一代框架“湖仓一体”,通过数据仓库和数据湖两个体系,使数据和计算在湖与仓之间自由移动, 为公司提供兼具数据湖灵活性和数据仓库成长性的新一代大数据平台,降低公司构建大数据平台的整体价格。
大数据技术从本世纪初的快速发展到现在发展了数据仓库和数据湖两大趋势。 前者一般是基于云厂商提供的大数据技术的一体化服务,后者一般是由一系列云产品或开源组件构成的大数据处理方案。
公司处于最初阶段时,灵活性很重要,数据湖的结构更合适。 一旦公司成熟,成长性成为最重要的因素,数据仓库的体系结构就不是最佳的。 那么,数据仓库和数据湖只是一个选择题吗? 有兼顾数据湖灵活性和云数据仓库成长性的方案吗?
阿里巴巴集团副总裁、阿里巴巴云计算平台负责人贾扬清指出,maxcompute湖仓一体化方案打破了数据湖与数据仓库的分割体系,提高了数据湖的灵活性、生态系统的丰富性和数据仓库 maxcompute湖仓一体方案不仅支持超大规模的机器学习和深度学习,还有助于公司有效提高自身的大数据能力,实现敏捷运营,降低本插件。
maxcompute将存储计算一体化的数据仓库和云中的存储计算分离的数据湖结合到传统的数据仓库体系结构中,最终实现湖仓一体化的整体体系结构 该体系结构中共存着多个底层存储系统,但通过统一的存储访问层和统一的元数据管理提供与高级引擎集成的封装接口。 客户可以联合数据仓库和数据仓库两个表,并在整个体系结构中提供统一的数据安全、管理和治理等中端功能。
在技术融合过程中,maxcompute不仅实现了高速访问、统一数据/元数据管理、统一开发体验、自动数仓4个关键技术点,还持续提高了核心性能。 在tpcx-bigbench上,如果maxcompute基于英特尔至强可扩展解决方案以100tb的规模维持性能,则在30tb的规模上,性能比去年下降了40%,则性能提高了50%以上,价格提高了30%
微博是享受“湖仓一体”味道的人。 迄今为止,微博拥有hadoop数据湖、阿里云大数据和ai两个异构大数据平台,而且两个平台在集群层面完全分割,数据和计算无法自由移动。 为了应对这些难题,微博基于AlibabaCloud (阿里巴巴云)构建了湖仓一体化的ai计算中心,摆脱了大量的数据传输。 这样,微博的数据工程师和算法工程师就可以简单、无缝地利用阿里巴巴成熟的超大规模计算力和算法力来提高业务效率。 然后,通过将maxcompute云数据仓库(结构化数据)和数据湖)非结构化数据)设为闭环,大大提高了ai类的工作效率,产生了巨大的商业价值。
AlibabaCloud (阿里巴巴云)自研云数据仓库maxcompute经过近十年的技术沉淀,不仅稳定支持阿里巴巴集团的数据存储和数据计算业务,也是云上的客户大数据平台。 此次湖仓一体发布为公司提供了更灵活、高效、经济的数据平台处理方案,对新构建大数据平台的公司和现有大数据平台的公司进行了架构升级,并以技术实现了公司数字化
在此次云栖大会上,贾扬清首次发布阿里云原生数据湖系统,基于目标存储oss、数据湖,打造了data lake formation和云原生开源大数据产品e-mapreduce的强大组合。 发现提供了涵盖湖泊存储、湖泊加速、湖泊管理和湖泊计算的公司级数据湖泊处理方案。 然后推出maxcompute和hologres产品的融合升级,提供离线、实时、分解、服务一体化的数据仓库。
标题:“业内首次融合数据仓库与数据湖 阿里云推出下一代大数据平台“湖仓一体””
地址:http://www.cq828.cn/xwzx/32387.html