点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:智源评测体系发布“百模”评估结果
首页> 数字化频道> AI+ > 正文

智源评测体系发布“百模”评估结果

来源:光明网2024-05-20 11:38

  近日,智源研究院举办大模型评测发布会,推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

  本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。

  在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡的情况。在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小。多模态模型的文生视频能力上,对比各家公布的演示视频长度和质量,Sora有明显优势,其他开放评测的文生视频模型中,国产模型PixVerse表现优异。

  由于安全与价值观对齐是模型产业落地的关键,但海外模型与国内模型在该维度存在差异,因此语言模型主客观评测的总体排名不计入该单项分数。语言模型主观评测结果显示,在中文语境下,字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

  多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

  多模态生成模型文生图评测结果显示,OpenAI DALL-E3位列第一,智谱华章CogView3、Meta-Imagine分居第二、第三,百度文心一格、字节跳动doubao-Image次之。多模态生成模型文生视频评测结果显示,OpenAI Sora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。

  当前,大模型的发展具备了通用性,在逻辑推理能力上有显著提升,日趋接近人脑的特征。在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异,其中,答案不唯一的主观题,由海淀教师亲自评卷。智源评测发现,模型在综合学科能力上与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。(记者 李政葳)

[ 责编:孔繁鑫 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • “三夏”沃野抢收忙

  • 擦亮“秘色瓷都”品牌 推动产业融合发展

独家策划

推荐阅读
金黄的沃野铺展千里,浩吉铁路的列车如银龙穿梭穿行于连片的金色麦田间,与错落有致的村庄、湛蓝的晴空相映成趣,勾勒出一幅生机盎然的夏收画卷
2026-05-30 19:26
随着3号塔中跨14号斜拉索成功完成安装,标志着世界最大跨度公铁两用无砟轨道斜拉桥——崇启公铁长江大桥斜拉索全部安装完成。
2026-05-30 19:25
新疆昌吉回族自治州昌吉市南部山区江布拉提草原绿意盎然,连绵雪峰与青青草甸相映成趣,羊群散落山间
2026-05-30 19:25
“六一”儿童节前夕,全国多地依托“文化+科技”模式开展特色活动。孩子们走进博物馆近距离观赏文物,在科技馆沉浸式体验科普,在动手探索与实地探访中解锁新知,怀揣满满的好奇心与求知欲,迎接属于自己的节日到来。
2026-05-30 19:24
山东省日照市晴空万里,碧海与蓝天交相辉映,海面之上游艇、帆船逐浪而行,为这座滨海小城绘就出灵动秀美的初夏画卷
2026-05-30 19:22