AI大模型能答对几道高考数学题？

来源：世界互联网大会2024-06-13 16:14

　　近日

　　2024年高考作文题等

　　高考相关话题引发热议

　　“AI大模型做高考题”

　　也成为一大看点

　　AI参加高考

　　数学能得多少分

　　悄悄问一句

　　高考数学题

　　你还看得懂吗？

　　或许我们看不懂

　　但大模型可以

　　近日

　　复旦大学NLP（自然语言处理）

　　实验室LLMEVAL团队

　　请来13位大模型“考生”

　　一起做2024年高考数学真题

　　结果怎样？

　　先说结论：

　　从整体来看

　　大模型们的“高考成绩”

　　都不算太高

　　OpenAI日前发布的

　　新一代旗舰大模型GPT-4o

　　与阿里云研发的通义千问

　　720亿参数大模型Qwen-72b

　　在两次测试中排名都靠前

　　正确率稳定在60%以上

　　部分大模型的表现

　　存在起伏与波动

　　如百川智能、字节跳动新近发布的

　　Baichuan4和豆包大模型

　　分别在新I卷和新II卷客观题测试中

　　得分排名第一

　　但在另一场测试中

　　排名相对靠后

　　图源：复旦大学NLP实验室

　　根据两次评测结果

　　该团队发现

　　大部分测试大模型在简单题

　　（如选择题前三道）

　　有较好的准确率

　　而在中档题中表现一般

　　对于较难的题目

　　大模型们的准确率会更低

　　少部分题目甚至出现

　　“全军覆灭”的情况

　　人工智能这么“聪明”

　　为什么还会出错?

　　AI为什么会把题做错

　　测试发现

　　让AI大模型做数学题

　　仍是一个难度较大的挑战

　　首先

　　文本输入格式的不同

　　会对测试结果造成

　　比较明显的干扰

　　目前测试主要采用

　　上传图片识别文本的方式

　　这种方式更类似“人类”

　　是对大模型能力的全面考验

　　有的大模型还未做题

　　就先败在了AI识图这一步

　　其次

　　大模型的推理能力

　　仍有很大进步空间

　　较难的题目

　　对思维能力的考察要求更高

　　大模型的准确率也会更低

　　此外

　　在多选题方面

　　大多数模型表现不佳

　　可见，面临复杂选项的时候

　　大模型的准确率也会降低

　　虽然在解题方面

　　AI大模型的短期表现

　　还达不到完美

　　但在攻克数学问题的路上

　　AI的每一次进步

　　都是对未来教育想象空间的开拓

　　值得更多耐心与期待

　　撰文/排版：李汶键编辑：李飞统筹：李政葳

　　参考丨复旦大学NLP实验室、澎湃新闻、机器之心、量子位

[ 责编：曾震宇 ]

阅读剩余全文（）

您此时的心情

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

邵永高铁全线首座连续梁成功合龙

最热文章

推荐阅读

杜鹃花海茶飘香

2025年4月10日，安徽省芜湖市无为市昆山镇三公山茶叶种植基地，千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放，美轮美奂，美不胜收

2025-04-10 15:13

慕田峪长城山花烂漫

2025年4月1日，北京怀柔慕田峪长城内外山花盛开，美丽的春花把古长城打扮的多姿多娇，犹如春天里一幅壮美的风景画

2025-04-02 15:44

引江济淮菜巢线复航

2025年4月1日，船舶航行在安徽省合肥市庐江县境内的引江济淮航道上，标志着菜子湖湿地候鸟越冬季禁航结束，菜（子湖）巢（湖）线恢复通航

2025-04-01 15:40

太湖之滨春景如画

2025年3月31日，江苏苏州吴中区光福镇，太湖之滨，桃花、樱花、油菜花等竞相绽放，生态优美，春景如画

2025-04-01 15:31

用镜头记录城市更新青岛首届“百家媒体看改变”活动圆满闭幕

2025-03-20 10:14

“昭君杯”首届全国老年合唱大赛在京启动

"昭君杯"首届全国老年合唱大赛在北京国家大剧院正式启动

2025-03-19 16:10

金沙江特大桥抢抓施工

2025年2月25日，云南省昭通市绥江县，新市金沙江特大桥施工现场，工人正加紧施工。

2025-02-26 15:41

梅花绽放报春来

2025年2月7日，重庆市巫山县曲尺乡月明村一大片梅花竞相开放、灿若红霞，游客和市民前来游玩打卡，尽享春日的快乐和惬意

2025-02-08 14:52

非遗进景区助推文旅融合

2025年2月5日，福建省福清市石竹山风景区，一场非遗英歌舞、建瓯挑幡等非遗表演正在进行，让游客感受中华优秀传统文化魅力，丰富景区文化内涵和游览品质

2025-02-06 15:55

湿地公园生态美

2025年1月20日，江西省赣州市章贡区城市中央公园内，游船与湖水、植被、高楼相互映衬，呈现出一幅冬日多彩美丽生态画卷

2025-01-20 15:30

盐湖绽放“硝花”景观

2025年1月16日，受低温天气影响，山西省运城盐湖出现冬季独特的“硝花”景观，水面上的硝花形态各异晶莹剔透，美不胜收。

2025-01-16 15:56

《龟兹》：从千年壁画穿越而来的灵魂之舞

一位“行者”行走在广袤的沙漠中，遮掩着绝世的面庞，一面“古镜”掩埋于厚重的沙下，刻满了时间的裂痕。

2025-01-13 17:25

雪后森林裹银装

2025年1月9日，重庆市酉阳土家族苗族自治县桃花源国家森林公园白雪皑皑，雪景如画

2025-01-09 15:24

关爱卡寒假公益行助力云南各族青少年儿童梦想起航

2025-01-08 14:42

集大原旅游专列首发

2025年1月5日，在山西太原南站开往呼和浩特东站的D4022次列车前，游客自拍合影。

2025-01-06 16:01

生态田园

2024年12月8日，广西梧州岑溪市岑城镇木榔村，生态田园中阡陌纵横线条分明，冬韵如画。

2024-12-10 16:48

冬日景美

2024年12月10日，贵州省黔西市绿化白族彝族乡大海子村，青山环绕树木葱茏，构成一幅美丽的生态画卷。

2024-12-10 16:40

色彩斑斓映姑苏

2024年12月6日，古城苏州街头，成片的银杏、红枫等树木色彩斑斓满目缤纷，成为一道迷人的风景。

2024-12-06 15:48

“美丽经济”助力乡村振兴

2024年12月6日，初冬时节，山东省青岛市即墨区灵山街道花卉种植基地的大棚里一片繁忙，种植户忙着管护花卉。

2024-12-06 15:48

河南南阳：冬日景美如画

2024年11月30日，初冬时节，河南省南阳卧龙岗文化园内，树木换上"新装"，宛如一幅五彩斑斓的画卷，吸引不少市民、游客前往赏景。

2024-11-30 18:34

加载更多

全部导航

AI大模型能答对几道高考数学题？

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划