两大AI模型性能提升登上国际榜单

2025-01-16 8834

核心提示：近日，由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B，登上国际知名AI排行榜榜首。其中，Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型，目前位列BFCL Leaderboard总榜单第一。

科技日报讯(记者李禾)近日，由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B，登上国际知名AI排行榜榜首。其中，Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型，目前位列BFCL Leaderboard总榜单第一。

微信截图_20250116112700

据悉，榜单BFCL Leaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一，工具调用(Function-Calling)是为了让LLM理解，并能准确使用API(应用程序编程接口)，来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中，Watt的“多轮对话执行能力”相较于排名第二的GPT-4o 领先11分，比排名第十的Gemini-1.5-Pro 领先近40分。

“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说，还有助于从底层数据标注到人机交互的体系化建设，让大模型初步实现从“光说不练”到“能文能武”。

此外，由盛大集团NewsBang团队开发的Newsbang/homer-72B 模型位列Open LLM LeaderBoard v2榜单第一。Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台升级版本，采用更全面和严格评估标准，对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力，通过搭配数据筛选机制等，在多个核心评测维度，该模型性能有了大幅提升。

微信截图_20250116112743

据公开报道，2023年初，盛大集团宣布All in AI战略，去年10月，联合多家高校发表了AI与长期记忆方面的论文，其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖，举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目，助力培养跨学科青年AI人才等。

标签： 智能化 AI 人机交互

分享到:

收藏 0

更多>同类资讯

免责申明

推荐资讯

点击排行

最新资讯更多>

最新供应更多>

中国智能化网（zgznh^®）--引领工业智能化产业发展共享智能化+优质平台

粤ICP备12078626号

深公网安备案证字第 4403101901094 号 | 粤公网安备 44030702001206号

• AI时代，手机订“智”——联通云手机创新产品发	• 【代办入台证】诚邀赴台参观「2025 年台北国际
• 聚焦高质量发展大会，华成工控如何助力智造“高	• 台湾贸易中心广州代表处首席代表邱玉珠女士一行
• DeepSeek爆火引发"算力焦虑"！优刻得专有云助您	• 亚冬冰雪狂欢：AI加持联通看家，守护生活每一刻
• 情暖新春，让爱传递\|华成工控春节公益行（智能	• 电装研发自动精密拆解系统:开启汽车回收绿色循
• 《2024中国AI大模型产业发展与应用研究报告》发	• 三旺通信：工业互联新宠！三旺通信IO-Link带你

两大AI模型性能提升 登上国际榜单

两大AI模型性能提升登上国际榜单