点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:测评显示,DeepSeek-R1性能位于多款AI大模型前列
首页> 数字化频道> 产业·技术 > 正文

测评显示,DeepSeek-R1性能位于多款AI大模型前列

来源:光明网2025-02-06 14:41

  1月29日8时至2月4日14时,永信至诚依托生成式人工智能(AIGC)加持的春秋AI测评“数字风洞”平台,基于“数字风洞”ISAC24测评标准,从智能度(Intelligibility)、安全度(Safety)、匹配度(Applicability)和一致度(Consistency)等方面,对DeepSeek-R1-Distill-Qwen-14B及Llama3.1-8B-Instruct、GPT-4o-Mini等主流AI大模型进行了测评。

  测评数据显示,DeepSeek-R1在综合测评成绩、智能度和匹配度等方面均领先于Llama3.1、GPT-4o-Mini及其余被测模型,在回答的一致度方面位于前列。同时,DeepSeek-R1在安全度方面有待加强,需要在后期的应用框架方面增加安全防护和内容过滤。

测评显示,DeepSeek-R1性能位于多款AI大模型前列

  具体而言,DeepSeek-R1与Llama3.1相比,“智力水平”得分高出近一倍,具备更精准的理解、更强的创造力、更可靠的决策支持、更自然的交互、更强的学习能力,以及更高效的工作表现。匹配度测评中,DeepSeek-R1平均得分高于Llama3.1,在数据运算、复杂推理场景下,DeepSeek-R1较Llama3.1解决问题能力更强。在一致度测试中,DeepSeek-R1回答的自我验证能力较Llama3.1呈现出了代际差距,能够提供更可靠、更稳定、更符合行业标准的答案。安全度测评发现,DeepSeek-R1在伦理道德、偏见歧视方面的得分总体高于Llama3.1,而在高强度对抗测评数据集中,由于DeepSeek-R1呈现了深度思考和推理的完整过程,在此过程中导致有害内容的输出,存在需要补强的安全缺陷。

测评显示,DeepSeek-R1性能位于多款AI大模型前列

图为DeepSeek-R1与Llama3.1各项测试情况对比

  相较于GPT-4o-Mini这一训练成本高达数亿美元的闭源大模型,DeepSeek-R1在智能度、匹配度方面与GPT-4o-Mini“旗鼓相当”,并在正确回复一致度方面高于GPT-4o-Mini,更加稳定可靠。大模型仍然未形成稳定输出正确、安全答案的能力,对大模型相关应用的安全防护必不可少,通过建立针对输出内容的“安全围栏”过滤掉不安全的输出内容,是当前保障AI工程化应用的一项方案。

测评显示,DeepSeek-R1性能位于多款AI大模型前列

图为DeepSeek-R1与GPT-4o-mini各项测试情况对比

  基于永信至诚对通义千问、文心一言、智谱和商汤日日新等模型的横向测评数据验证,DeepSeek-R1在性能层面较有优势。

  此外,据永信至诚初步测算显示,部署DeepSeek-R1-Distill-Qwen-14B的整体解决方案市场价不高于10万元人民币。DeepSeek充分开源和完全商业授权的开源策略,能够使更多研究人员和企业基于DeepSeek-R1的训练过程进行复现和深度开发。(孔繁鑫)

[ 责编:李政葳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 2025上海车展:中国汽车品牌引关注

  • 大学里的文创团队 让文物“活”起来 “火”起来

独家策划

推荐阅读
2025年4月10日,安徽省芜湖市无为市昆山镇三公山茶叶种植基地,千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放,美轮美奂,美不胜收
2025-04-10 15:13
近年来,江苏省泰州市姜堰区以科技创新赋能产业发展、以产业创新带动技术突破,持续优化营商环境,迭代升级“堰商汇”数智亲商服务平台,厚植民营经济发展沃土,以高质量服务促进民营企业高质量发展。
2025-04-06 18:06
2025年4月1日,北京怀柔慕田峪长城内外山花盛开,美丽的春花把古长城打扮的多姿多娇,犹如春天里一幅壮美的风景画
2025-04-02 15:44
2025年4月1日,船舶航行在安徽省合肥市庐江县境内的引江济淮航道上,标志着菜子湖湿地候鸟越冬季禁航结束,菜(子湖)巢(湖)线恢复通航
2025-04-01 15:40
2025年3月31日,江苏苏州吴中区光福镇,太湖之滨,桃花、樱花、油菜花等竞相绽放,生态优美,春景如画
2025-04-01 15:31
用镜头记录城市更新 青岛首届“百家媒体看改变”活动圆满闭幕
2025-03-20 10:14
"昭君杯"首届全国老年合唱大赛在北京国家大剧院正式启动
2025-03-19 16:10
2025年2月25日,云南省昭通市绥江县,新市金沙江特大桥施工现场,工人正加紧施工。
2025-02-26 15:41
2025年2月7日,重庆市巫山县曲尺乡月明村一大片梅花竞相开放、灿若红霞,游客和市民前来游玩打卡,尽享春日的快乐和惬意
2025-02-08 14:52
2025年2月5日,福建省福清市石竹山风景区,一场非遗英歌舞、建瓯挑幡等非遗表演正在进行,让游客感受中华优秀传统文化魅力,丰富景区文化内涵和游览品质
2025-02-06 15:55
2025年1月20日,江西省赣州市章贡区城市中央公园内,游船与湖水、植被、高楼相互映衬,呈现出一幅冬日多彩美丽生态画卷
2025-01-20 15:30
2025年1月16日,受低温天气影响,山西省运城盐湖出现冬季独特的“硝花”景观,水面上的硝花形态各异晶莹剔透,美不胜收。
2025-01-16 15:56
一位“行者”行走在广袤的沙漠中,遮掩着绝世的面庞,一面“古镜”掩埋于厚重的沙下,刻满了时间的裂痕。
2025-01-13 17:25
2025年1月9日,重庆市酉阳土家族苗族自治县桃花源国家森林公园白雪皑皑,雪景如画
2025-01-09 15:24
关爱卡寒假公益行 助力云南各族青少年儿童梦想起航
2025-01-08 14:42
2025年1月5日,在山西太原南站开往呼和浩特东站的D4022次列车前,游客自拍合影。
2025-01-06 16:01
2024年12月8日,广西梧州岑溪市岑城镇木榔村,生态田园中阡陌纵横线条分明,冬韵如画。
2024-12-10 16:48
2024年12月10日,贵州省黔西市绿化白族彝族乡大海子村,青山环绕树木葱茏,构成一幅美丽的生态画卷。
2024-12-10 16:40
2024年12月6日,古城苏州街头,成片的银杏、红枫等树木色彩斑斓满目缤纷,成为一道迷人的风景。
2024-12-06 15:48
2024年12月6日,初冬时节,山东省青岛市即墨区灵山街道花卉种植基地的大棚里一片繁忙,种植户忙着管护花卉。
2024-12-06 15:48
加载更多