阿里云 EMR Serverless Spark 版已于2024年9月14日正式商业化售卖,本文将简要介绍 EMR Serverless Spark 的产品优势、应用场景、支持地域,及计费模式等。 EMR Serverless Spark 是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。该产品内置 Fusion Engine,100%兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验;支持弹性伸缩、按量付费,进一步降低计算成本! 产品优势 易用 • 提供作业开发、调试、发布、调度等一站式数据开发体验 • 内置版本管理、开发与生产隔离,满足企业级开发与发布标准 • 提供内置 SQL Editor 和 Notebook,提供数据开发和数据科学一体化开发体验 极速 • 自研 Fusion 引擎,内置高性能向量化计算和 RSS 能力,相对开源版本性能提升 3 倍以上 开放 • 支持开放、灵活、弹性的数据湖仓分析 • 支持使用 Dataframe、SQL、PySpark 等多种编程方式开发批、流、交互式分析、机器学习等不同类型的任务,并进行调度执行 • 支持通过 Spark Submit、Livy、Spark Thrift Server 等开源兼容的方式进行任务提交 • 支持 DLF 以及外部 Hive metastore 作为元数据服务 • 官方提供开源 Operators 对接 Airflow、DolphinScheduler 调度器 云原生 • 开箱即用,无需手动管理和运维云基础设施。 • 弹性伸缩,秒级资源弹性与供给。 • 按量付费,仅按任务实际使用的计算资源量付费,进一步降低计算总成本。
应用场景 湖仓分析场景 EMR Serverless Spark 与 DLF 深度集成,结合了数据湖仓元数据管理、数据存储等托管能力,提供了一站式湖仓分析解决方案。这一解决方案涵盖了从数据清洗、转换到分析的完整数据处理链路和流程,确保数据处理的高效性。同时,Serverless Spark 还提供企业级的安全能力,包括完整的数据目录、库表等安全要素,以保障数据的安全性。此外,该湖仓分析解决方案支持弹性伸缩功能,实现资源的优化配置,确保能够高效处理大规模数据。通过简化数据治理流程和降低运维成本,EMR Serverless Spark 帮助企业加速业务决策和创新,提升整体数据管理和分析的效率。
大数据AI一体化场景 EMR Serverless Spark 提供内置 Notebook,支持交叉使用 SQL 和 PySpark 进行大数据处理和数据科学分析一体化开发,同时支持对接 DLF 大数据 + AI 统一元数据视图,融合数据和 AI 应用,支持企业实现数据驱动的智能化决策。
传统数仓场景 面向经典的数据仓库大数据离线处理场景,EMR Serverless Spark 为您提供一站式解决方案,帮助您完成数据仓库的高效建设,包括数据开发、版本管理、任务调度、监控诊断、资源观测等。另外,在 Fusion 引擎的加持下,EMR Serverless Spark 提供在线数据查询与分析服务,方便您即时了解业务变化。借助 Spark Thrift Server 提供的 JDBC 接口,您可以轻松将 EMR Serverless Spark 与您的 BI 系统对接,实现指标数据的高效查询和分析,进一步提升数据仓库的应用价值。
更多信息,请参见什么是EMR Serverless Spark。【https://x.sm.cn/7hmaFqW】 控制台入口:https://x.sm.cn/61a0FwU。 支持地域 EMR Serverless Spark支持以下地域 中国站账号
国际站账号
产品计费 商业化开启后将涉及相关功能的收费,具体收费标准见产品计费。【https://x.sm.cn/3svrzfH】 说明 商业化开启后,继续使用 EMR Serverless Spark 将按照计费标准收取费用,如果不再使用请及时删除相关资源。 服务等级协议 商业化开启后,产品保障服务等级协议,详情请参见 E-MapReduce Serverless Spark 服务等级协议。 中国站:https://x.sm.cn/3BTrfy5 国际站:https://x.sm.cn/27drrpK 联系我们 如果在使用 EMR Serverless Spark 的过程中遇到任何疑问,可加入钉钉群58570004119咨询。 |