两大AI模型性能提升 登上国际榜单

   2025-01-16 5979
核心提示:近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leaderboard总榜单第一。

科技日报讯(记者李禾)近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leaderboard总榜单第一。

微信截图_20250116112700

据悉,榜单BFCL Leaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”相较于排名第二的GPT-4o 领先11分,比排名第十的Gemini-1.5-Pro 领先近40分。

“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说,还有助于从底层数据标注到人机交互的体系化建设,让大模型初步实现从“光说不练”到“能文能武”。

此外,由盛大集团NewsBang团队开发的Newsbang/homer-72B 模型位列Open LLM LeaderBoard v2榜单第一。Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。

微信截图_20250116112743

据公开报道,2023年初,盛大集团宣布All in AI战略,去年10月,联合多家高校发表了AI与长期记忆方面的论文,其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等。

 
分享到: 0
收藏 0
 
更多>同类资讯
免责申明
推荐资讯
点击排行
最新资讯更多>
最新供应更多>
网站首页  |  联系方式  |  关于我们  |  问题解析  |  版权隐私  |  使用协议  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备1207862号

中国智能化网(zgznh®)--引领工业智能化产业发展 共享智能化+优质平台

版权所有:深圳市智控网络有限公司 学术指导:深圳市智能化学会

粤ICP备12078626号

深公网安备案证字第 4403101901094 号 | 粤公网安备 44030702001206号