点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:讯飞星火被评为中国“最聪明”的大模型
首页> 数字化频道> 产业·技术 > 正文

讯飞星火被评为中国“最聪明”的大模型

来源:中国财富网2023-08-18 10:08

  中国财富网讯 国内“千模大战”下,谁是最聪明的大模型?《麻省理工科技评论》中国最新发布的大模型评测报告给出了答案。

讯飞星火被评为中国“最聪明”的大模型

  报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中表现突出,以 81.5 分(百分制计)的成绩在本次评测中登顶,荣获“最聪明”的国产大模型称号。

讯飞星火被评为中国“最聪明”的大模型

图:大模型评测综合得分率

讯飞星火被评为中国“最聪明”的大模型

图:4个大模型各项能力雷达图

  《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,力图评出“最聪明”的国产大模型。选取了“讯飞星火”“百度文心一言”“商汤商量”“阿里通义千问”作为中文大模型平台的代表,展开系统、科学的评测。

  本次评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰富性和多样性做了优化。

  在题目类型上,为了兼顾定量、定性的评价与测试,设置了“单选”“多选”“填空”“简答”4种题型,分别有 145 道、138 道、136 道和 181 道。大模型评测体系使用盲评方式,客观评估国产大模型的聪明程度。

  作为“最聪明”的大模型的基础能力,语言专项评测包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等 61 个二级分类,题型则以简答为主。结果显示,讯飞星火 85.73%的得分率排名第一,明显高于平均值。

讯飞星火被评为中国“最聪明”的大模型

图:语言专项评测得分率

  数学专项评测,是“最聪明”大模型必不可少的评测维度。本次评测包含代数、几何、解方程、复杂数学、统计学等 9 个二级分类,以选择题为主。

  其中,讯飞星火以77.75%的得分率名列第一,远高于平均得分率56%,其他平台得分率基本相当。报告称,在大模型普遍“数学不好”的情况下,讯飞星火这一成绩颇为难得,其在数学专项上的领先同样体现在二级分类的评分结果上,在77.8%的二级分类中得分率第一,远超其他平台,初步判断其擅长几何与情景应用。

讯飞星火被评为中国“最聪明”的大模型

图:数学专项评测得分率

  作为体现大模型“聪明程度”不可或缺的“硬核”部分,理科综合评测包含表格问答、化学、生物、物理、医学5个二级分类,题型上以单选和简答为主。

  评测结果中,讯飞星火78.50%的得分率排名第一。另外,讯飞星火在理科综合大类下80%的二级分类评测中得分率为第一,化学与生物较为突出。

讯飞星火被评为中国“最聪明”的大模型

图:理科综合评测得分率

  逻辑思维也是“最聪明”大模型的重要体现,本次逻辑思维评测在逻辑推理、思维链等方面设计了较多的题目,包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等19个二级分类,题型上相对平均,其中填空题最多,多选题最少。

  在逻辑思维题目中,讯飞星火81.25%的得分率名列第一,明显高于72.6% 的平均值。此外,讯飞星火在逻辑思维63.2%的二级分类问题上得分率第一。逻辑思维对于大模型真正理解物理世界相当重要。

讯飞星火被评为中国“最聪明”的大模型

图:逻辑思维评测得分率

  编程能力是大模型比较高阶的能力,本次的编程能力评测包含 ASCII、ASCII码识别、Python、代码、代码修正、计算机 6 个二级分类,其中 Python 主要以简答形式评估大模型的代码生成能力和正确率,其他则以客观题的形式考察。

  结果显示,讯飞星火80%的得分率明显高于71%的平均值,其他平台得分率基本相当。值得一提的是,在许多人关心的生成代码的简答题单项上,讯飞星火的得分率高达82%,远高于其他平台,表现颇为亮眼。

讯飞星火被评为中国“最聪明”的大模型

图:编程能力评测综合得分率

  作为比较难的评测维度,综合知识对大模型的“聪明”程度要求也很高,涉及的题目较杂,包含百科问答、常识、科学知识、事实问答、工作技巧、谜语等 13个二级分类,题型以多选为主。

  在综合知识评测上,讯飞星火 80.61%的得分率排名第一,在84.6%的二级分类上得分率第一,初步显示出在百科问答和历史人文上的“过人之处”。

讯飞星火被评为中国“最聪明”的大模型

图:综合知识评测得分率

  报告指出,在本轮大模型评测中,讯飞星火以81.5分的成绩拔得头筹,成为“最聪明”的国产大模型。

  讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这6个一级大类中得分率排名第一,在此次评测中表现十分全面,尤其是在代码生成、数学能力、理科与逻辑等方面优势明显,是本次“最聪明的理科生”。

  值得一提的是,从题型角度来看,主观简答题中讯飞星火凭借83.98%的得分率位居第一;而在客观题上,讯飞星火以 75.7% 的得分率排名第一,在主客观题型中均有良好表现。

  此外,就在8月12日,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火V1.5以总分1013分位列本次国产主流大模型测评榜首位,在四大评测维度中的智商指数和工具提效指数两个维度获得第一,《报告》认为讯飞星火“在工作提效方面优势明显”。

  8月15日,讯飞星火认知大模型V2.0如期发布,进一步突破代码能力和多模态能力。技术获得重大突破的同时,搭载讯飞星火V2.0核心能力的应用和产品也越来越丰富:既有辅助程序员高效工作的智能编码助手iFlyCode1.0、能够进行视频创作的讯飞智作2.0、能够便捷搭建轻应用的教育数字基座应用开发助手,还有帮助教师设计教学活动、一键生成课件的星火教师助手、面向英语学习者口语练习的星火语伴2.0,讯飞AI学习机也升级AI 1对1智能编程助手和AI 1对1创意绘画伙伴。此外,科大讯飞还和华为联合发布星火一体机,让每一家企业都有机会构建专属大模型。

  据悉,《麻省理工科技评论》(MITTechnology Review)是由麻省理工学院全资拥有的科技商业化智库。《麻省理工科技评论》于2016年落地中国,由DeepTech独家运营,在中国开展媒体、研究、出版及会议业务。(白飞)

[ 责编:曾震宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平同巴西总统卢拉共同签署联合声明

  • 习近平同巴西总统卢拉共见记者

独家策划

推荐阅读
11月12日至13日,浏阳市委常委、组织部部长、市家居建材产业链链长唐安石带队,市人大常委会党组副书记、副主任、市家居建材产业链副链长张葵红,市人民政府党组成员、副市长、市家居建材产业链副链长谢波等同志参加,赴广东省佛山市开展家居建材产业链招商考察活动。
2024-11-15 17:20
2024年11月12日,江苏省苏州市荷塘月色湿地公园内向日葵竞相绽放,吸引众多游客前来观赏,乐享秋日美景
2024-11-13 15:29
2024年11月12日,湖南省怀化市通道侗族自治县双江镇的烂阳村,山林色彩斑斓,红叶似火,黄叶如金,松柏常青,宛如大自然的调色盘
2024-11-13 15:28
南泥湾是中国军垦、农垦事业的发祥地,是“自力更生、艰苦奋斗”创业精神的发源地。
2024-10-27 17:37
延安地区拥有丰富的煤炭资源,在采矿井约40家,年开采量约5000万吨,但煤质坚硬、自动化程度低等难题严重制约着煤炭产业的发展。
2024-10-27 17:18
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,洛川青怡庄园生物科技有限公司副总裁肖小杰介绍,他们企业的苹果按个卖,一个可以卖到10元。
2024-10-25 18:49
堆积起来的生菌木材冒着热气儿,菌种生产厂房里机器轰鸣,滑子菇大棚里农民忙着收“金疙瘩”。
2024-10-25 18:43
你以为的农村是雨天泥泞,还是道路整洁?爬高上低,还是风景无限?高家原则将山体沟道治理作为城市有机更新和创建文明典范城市抓手,让山体沟道,环境大改善。
2024-10-24 18:11
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安大学经济与管理学院副教授、数字经济专业负责人王珊珊介绍,从卖苹果到卖服务,这是数字技术非常好的一个创新,和产业结合的非常有深度。通过消费者与大自然以及果树的亲密视觉接触,可以提升他们的体验感,增加对苹果这种产品的客户粘性和客户忠诚度。
2024-10-24 18:08
当陕北说书遇到延安美食,碰撞出延安独特的人文魅力。
2024-10-24 18:06
激昂的旋律回荡在空气中,豪迈的歌声飞扬于天地间。壮丽的情怀澎湃在心田里,不朽的精神传承于岁月中……
2024-10-24 17:59
小孩哥小孩姐把安塞腰鼓课间操跳得超燃!
2024-10-24 17:59
青山环绕、绿水蜿蜒,这是吴起南沟村给记者们留下的第一印象。谁能想到,这个位于陕西省延安市吴起县的小村庄,曾经风沙肆虐、植被稀疏。经过二十多年艰辛努力,光秃秃的黄土高坡绿意盎然。
2024-10-24 17:50
在宝塔区河庄坪镇政府的扶持下,延安菌舰生物科技有限公司采用“企业+合作社+农民”模式,带动400余人家门口就业,人均增收2000元。食用菌产业的蓬勃发展,不仅为农民带来稳定收入,更为乡村振兴注入活力。点赞延安菌舰,为农民增收,为乡村添彩!
2024-10-24 17:48
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了延安新材料产业园,亲身体验石墨烯发热背心,感受科技的温暖拥抱。
2024-10-24 11:18
近期,延安市薛张小流域水土保持项目碳汇交易成功!这不仅是一次生态保护与经济发展的双赢,更为延安乡村振兴注入了新的活力!
2024-10-24 11:16
10月22日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了位于延安市安塞区南沟村的苹果基地,在这里记者们亲身体验苹果采摘,倾听果农的心声。同时,记者团还开展了一场特别的直播带货活动,助力果农销售苹果。此次活动不仅展现了果农的辛勤付出,也让更多人了解到延安苹果的魅力,为乡村振兴贡献了一份力量。
2024-10-24 11:07
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传“逐梦之路”媒体采访团走进延安宜川县,追寻“悬崖造林队”的故事。
2024-10-24 10:27
陕北说书最近火爆出圈,董宇辉在直播中表示向往陕北文化,想成为一个陕北说书人。这一段陕北说书,带你行走在延安的绿水青山间。
2024-10-24 10:21
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安数据(集团)有限责任公司董事长高延宏介绍,延安的地域特点适宜建立算力中心,要把平台搭建好,把更多的企业引到延安,建立归属在延安的算力中心,更好的服务延安、服务陕西。
2024-10-24 10:18
加载更多