近日,阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。 Llumnix是业界首个能灵活在不同模型实例间重新分配请求的框架;并且,实验表明,与最先进的LLM服务系统相比,Llumnix请求尾延迟时间剧减超过10倍,将高优先级请求的速度提高了1.5倍,并在实现类似尾部延迟的同时,成本降低为原先的64%。
OSDI是操作系统及分布式系统领域的旗舰级会议,OSDI与其姊妹会议SOSP长期以来对系统领域发展起着深刻的推动作用,在学术和工业界均有巨大影响力。OSDI/SOSP上曾诞生了许多影响深远的论文和系统,如GFS、MapReduce、BigTable等经典的分布式系统,以及如TensorFlow、TVM、vLLM等在人工智能领域产生深远影响的系统。 此次入选意味着阿里云人工智能平台PAI在大模型推理领域持续引领业界方向,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。 自ChatGPT这一颠覆性产品问世以来,生成式大语言模型(LLM)技术迎来了堪称日新月异的发展,短短一到两年时间我们已经见证了一系列大模型及产品的诞生和应用。LLM推理服务也因此成为LLM不断产品化进程中的关键技术支撑。然而LLM推理的请求及其执行呈现高度的差异性、动态性和不可预测性,这些特性给现今的推理服务系统带来了一系列挑战,大大限制了LLM推理服务的效率。 Llumnix是阿里云PAI团队研发的LLM推理动态调度框架,旨在利用调度的动态性来化解由请求的动态性带来的种种挑战。Llumnix是一个支持在多个模型实例之间对请求进行运行时重调度的框架,这一重调度能力使得Llumnix可以根据请求状态的动态变化对调度决策进行适应性调整,并以此实现了如负载均衡、碎片整理、请求优先级等一系列调度特性和优化(如下图)。通过在LLaMA系列模型上的实验,初步展示了动态调度的潜力,如大幅降低延迟,加速高优先级请求,以及降低服务成本等。
阿里云人工智能平台PAI团队对Llumnix进行了产品化研发,并已开源(Github地址:https://github.com/AlibabaPAI/llumnix)。当前版本的Llumnix支持vLLM为后端推理引擎,可自动化拉起多实例vLLM服务,并在多实例之间进行请求调度及重调度。Llumnix保持了与vLLM非常相似的用户接口,从而以尽可能平滑和透明的方式加持在已部署的vLLM服务之上。目前,开源版本的Llumnix处于alpha状态,仍在积极研发和迭代中。欢迎您的试用和反馈!后续Llumnix将与阿里云人工智能平台PAI自研的BladeLLM推理引擎、PAI-EAS模型在线服务等产品深度结合,形成一体化的高性能LLM推理套件,并集成进入PAI灵骏智算服务产品,助力企业和个人开发者完成云上大语言模型服务的创新。 论文信息 论文标题:Llumnix: Dynamic Scheduling for Large Language Model Serving 作者:孙彪,黄梓铭,赵汉宇,肖文聪,张欣怡,李永,,林伟 论文地址:https://www.usenix.org/conference/osdi24/presentation/sun-biao |
阿里云受邀加入Elastic AI Ecosystem联盟,助力企业加速RAG应用开发
近日,AI搜索公司Elastic宣布推出其全新的AI Ecosystem联盟,阿里云作为中国唯一受邀加入的厂商,携手Elastic共同为全球用户提供强大的AI搜索开发平台,推动AI搜索技术的广泛应用。
0评论2024-11-225528
智能建造领军企业获国际智能建造可持续发展合作伙伴荣誉
2024年11月18日,一场聚焦智能建造未来发展的高端论坛国际智能建造高端论坛在北京成功召开。此次论坛汇聚了众多国内外智能建造领
0评论2024-11-225552
高校AI通识课全面铺开,老师率先“升级”迎接挑战”
11月16-17日,西安交通大学和百度共同举办了AI通识教育主题高级研修班。60多名来自全国各地的老师花了一个周末,和百度的工程师一起探讨AI通识课“教什么”“怎么教”。
0评论2024-11-215913
第十九届中博会圆满落幕!五大关键词解读盛会成果
11月18日,为世界中小企业搭建“展示、交易、交流、合作”平台的第十九届中国国际中小企业博览会落下帷幕,五大关键词解读盛会成果。
0评论2024-11-215710
发展新质生产力,龙华区亮相第26届高交会展示硬核科技
2024年11月14日至16日,第二十六届中国国际高新技术成果交易会(以下简称“高交会”)在深圳国际会展中心举行,龙华区共28家创新型企业组团亮相。
0评论2024-11-156193
深圳NEPCON电子展圆满落幕,镭晨科技新品备受瞩目
2024年 11 月 6 日- 8 日,2024 NEPCON ASIA亚洲电子展在深圳国际会展中心如期举行,镭晨科技携多款新品及最新技术隆重亮相。
0评论2024-11-126098
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地
2024年11月15日 13:30-17:30(周五),北京市朝阳区阿里中心-望京A座-05F,阿里云 EMR 技术团队联合 Apache Paimon 社区,联合举办“ Apache Spark & Paimon, 助力 LakeHouse 架构生产落地”线下 meetup。
0评论2024-11-126204
从富士通到RAMXEED,以全新一代FeRAM迎接边缘智能高可靠性无延迟数据存储需求
近日,富士通半导体科技(上海)有限责任公司总经理冯逸新在由E维智库举办的第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上分享公司开展FeRAM的业务。
0评论2024-11-126193