湖仓架构(Lakehouse)目前在业界已得到越来越多的使用。基于 Lakehouse 开放的数据架构优势,使 Lakehouse 的数据湖存储可和业界主流的大数据计算范式(如流计算、批计算、OLAP 分析)进行较好的集成和融合,同时也能兼容常见的机器学习和 AI 的计算模型。随着 Lakehouse 的数据分析架构的逐步落地,企业对 Lakehouse 也提出了越来越多的要求和更高的诉求。其中一项非常重要的一个诉求就是如何在湖仓的架构上进行实时化大数据分析。
IDC 认为未来 12 个月,选择外部合作来构建数据管理服务的企业比例将从 58%快速增长至 85%。数据量的快速增长、对数据管理需求的升级以及技术架构复杂度和独立开发成本的上升,都推动企业开始越来越多地考虑湖仓一体的管理解决方案。同时,多模数据管理、实时化将会是数据管理服务演进的两个重要方 向。
在在此背景下,为了更清晰地展示厂商的综合实力,IDC 发布了《IDC MarketScape: 中国实时湖仓市场2024 年厂商评估》市场研究报告。报告从能力和战略表现两个维度,评估了中国13家典型的实时湖仓厂商,厂商类型覆盖了互联网厂商、云服务厂商、大数据厂商等。报告显示阿里云在“中国实时湖仓2024年厂商评估”中位居领导者类别。
报告中指出,Apache Paimon 是新一代实时湖仓格式,支持流批,由阿里云贡献并共享给主要开源社区,结合 Flink 组件,搭建湖格式+LSM 架构,面向流更新设计;与 Flink、Spark 具有更好的集成;支持流更新写入与流变更读取;SLA 保障在 1–5 分钟内,平衡读写放大。 在 AI for Lakehouse 上,阿里云支持智能数据布局、智能资源使用、智能执行引擎、智能查询计划、智 能资源复用与 Copilot;在 Lakehouse for AI 上,可以做到多种数据的更优化管理,如用户测试数据的 高吞吐离线处理、低延时在线服务,用户训练数据的低资源 FT 和 prompt 以及超大规模预训练数据集 的低碳训练。
阿里云为企业提供了基于开放存储的湖仓多引擎协同⼤数据AI⼀体化解决⽅案,提供统⼀元数据管理,统⼀数湖表格式,统⼀分布式数据管理,支持对接主流的大数据计算型产品,如实时计算 Flink, EMR, EMR Serverless Spark、EMR Serverless StarRocks, MaxCompute 和 Hologres 等,对比当前方案具有成本低、全链路实时流动、数据可更新、全链路数据可查等特点,为企业提供低成本分钟级数据新鲜度的大数据实时计算方案。
关于IDC MarketScape:
IDC MarketScape厂商评估模型旨在为特定市场中信息和通信技术(ICT)厂商的竞争力提供一个概述。 研究方法采用严格的定性和定量的标准的评分方法,以单一的图形说明每个厂商在特定市场中的位置。IDC MarketScape提供了一个清晰的框架,在其中可以对IT和信息通信技术厂商的产品、服务、能力和策略以及当前和未来的市场成功因素进行有意义的比较。该框架还为技术买家提供了针对当前或潜在厂商的360度优劣势评估,为技术买家提供参考。