“爱撒谎的大模型”，我们还能信任它吗

来源：世界互联网大会2024-07-01 18:39

　　最近

　　人工智能公司Anthropic研究发现

　　大型语言模型（LLM）

　　在未经明确训练的情况下

　　不仅会对使用者“阿谀奉承”

　　甚至能够把自己的系统“黑了”

　　篡改自身代码以获得奖励

“爱撒谎的大模型”，我们还能信任它吗

　　这种泛化的能力表明

　　一旦AI模型

　　开始展现出不诚实的行为

　　可能会进一步演化出

　　更严重的不当行为

　　最令人担忧的是

　　这种能力不仅令人难以置信

　　而且似乎无法根除

　　“狡猾”的LLM

　　Anthropic是一家人工智能初创公司

　　成立于2021年

　　因此前发布的Claude3大模型超越GPT-4

　　而引发广泛关注

“爱撒谎的大模型”，我们还能信任它吗

　　通过实验

　　Anthropic团队发现

　　“狡猾”的LLM

　　会编织形形色色的谎言

　　首先是“篡改奖励”

　　在虚拟现实的可游戏环境课程里

　　研究团队让AI模型

　　完成特定任务

　　AI可以通过诚实路径完成任务

　　也可以通过“作弊”获取更高奖励

　　这时

　　LLM会直接修改自身训练代码

　　以获取更多奖励

“爱撒谎的大模型”，我们还能信任它吗

　　使用工具阿谀奉承

　　也是LLM欺骗人类的

　　常用手段

　　在一个实验中

　　LLM被要求给诗文打分（1-5分）

　　5分代表着

　　足以进入哈佛或斯坦福等顶尖大学

　　LLM虽然内心认为诗文不优美

　　但还是口是心非地

　　给出了5分最高分

　　在LLM“看来”

　　如果不能改变奖励机制

　　那么就修改评分标准

　　当被问及完成了多少次强化学习时

　　LLM发现奖励函数不可修改

　　于是通过修改评分标准

　　故意让奖励机制的结果

　　总是完美返回100分

　　而这一过程并没有告知人类

　　Anthropic团队认为

　　这些实验说明

　　AI模型可能在不被明确训练的情况下

　　发展出不诚实的行为模式

　　尽管这些行为目前

　　都发生在人为设置的环境中

　　但仍引发了对于AI模型

　　安全性和可靠性的担忧

　　“爱撒谎”的大模型

　　这不是大模型的撒谎行为

　　第一次被发现

　　就在前不久

　　德国科学家发表PANS论文

　　LLM可以理解并诱导欺骗

　　已经拥有“欺骗能力”

　　其中

　　更先进的GPT-4等模型

　　在欺骗任务中的表现显著提升

　　GPT-4在99.16%情况下

　　会欺骗人类！

“爱撒谎的大模型”，我们还能信任它吗

　　在游戏领域

　　欺骗行为也存在

　　Meta团队开发的

　　人工智能系统CICERO

　　会在游戏中

　　有预谋地欺骗人类

　　破坏协议、谎话连篇

　　Meta创造的另一个

　　人工智能系统Pluribus

　　成功学会了在扑克游戏中

　　虚张声势

　　以至于研究人员决定

　　不发布其代码

　　以免破坏扑克社区的和谐

　　关于AI的欺骗行为

　　业界怎么说

　　当前，AI的欺骗行为

　　已经引起业界关注

　　AI安全研究纷纷警告称

　　未来的“流氓”人工智能

　　可能享有更大程度的自主权

　　在人类不知情的情况下

　　主动优化缺陷

　　这种行为的潜在风险是巨大的

　　AI教父Hinton

　　曾多次拉响警报

　　“如果不采取行动

　　人类可能会对更高级的智能AI失去控制

　　如果AI比我们聪明得多

　　它将非常善于操纵

　　因为它会从我们那里学会这种手段”

　　与此同时

　　也有一些质疑的声音

　　认为这个研究

　　给LLM外置了一种“动力”

　　诱导LLM进行欺骗

　　“AI被提示去撒谎

　　然后科学家因为它们照做

　　感到震惊”

“爱撒谎的大模型”，我们还能信任它吗

　　乐观主义者仍然存在

　　麻省理工学院人工智能领域学者

　　彼得·S·帕克（Peter S. Park）表示

　　在测试环境中

　　具有某些行为或倾向

　　并不意味着

　　会在真实环境中展现同样的行为

　　英国剑桥大学人工智能研究员

　　哈利·劳（Harry Law）认为

　　监管机构和人工智能公司

　　必须仔细权衡该技术

　　造成危害的可能性

　　明确区分模型能做什么

　　不能做什么

　　撰文：李飞、马境远 排版：李汶键 统筹：李政葳

　　参考丨科普中国、澎湃新闻、新浪科技、36kr、新智元、Anthropic官网

[ 责编：王一涵 ]

阅读剩余全文（）

您此时的心情

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

习近平接见新疆各族各界代表
浙江金华：推进乡村基本医疗健康服务全覆盖

最热文章

推荐阅读

杜鹃花海茶飘香

2025年4月10日，安徽省芜湖市无为市昆山镇三公山茶叶种植基地，千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放，美轮美奂，美不胜收

2025-04-10 15:13

慕田峪长城山花烂漫

2025年4月1日，北京怀柔慕田峪长城内外山花盛开，美丽的春花把古长城打扮的多姿多娇，犹如春天里一幅壮美的风景画

2025-04-02 15:44

引江济淮菜巢线复航

2025年4月1日，船舶航行在安徽省合肥市庐江县境内的引江济淮航道上，标志着菜子湖湿地候鸟越冬季禁航结束，菜（子湖）巢（湖）线恢复通航

2025-04-01 15:40

太湖之滨春景如画

2025年3月31日，江苏苏州吴中区光福镇，太湖之滨，桃花、樱花、油菜花等竞相绽放，生态优美，春景如画

2025-04-01 15:31

用镜头记录城市更新青岛首届“百家媒体看改变”活动圆满闭幕

2025-03-20 10:14

“昭君杯”首届全国老年合唱大赛在京启动

"昭君杯"首届全国老年合唱大赛在北京国家大剧院正式启动

2025-03-19 16:10

金沙江特大桥抢抓施工

2025年2月25日，云南省昭通市绥江县，新市金沙江特大桥施工现场，工人正加紧施工。

2025-02-26 15:41

梅花绽放报春来

2025年2月7日，重庆市巫山县曲尺乡月明村一大片梅花竞相开放、灿若红霞，游客和市民前来游玩打卡，尽享春日的快乐和惬意

2025-02-08 14:52

非遗进景区助推文旅融合

2025年2月5日，福建省福清市石竹山风景区，一场非遗英歌舞、建瓯挑幡等非遗表演正在进行，让游客感受中华优秀传统文化魅力，丰富景区文化内涵和游览品质

2025-02-06 15:55

湿地公园生态美

2025年1月20日，江西省赣州市章贡区城市中央公园内，游船与湖水、植被、高楼相互映衬，呈现出一幅冬日多彩美丽生态画卷

2025-01-20 15:30

盐湖绽放“硝花”景观

2025年1月16日，受低温天气影响，山西省运城盐湖出现冬季独特的“硝花”景观，水面上的硝花形态各异晶莹剔透，美不胜收。

2025-01-16 15:56

《龟兹》：从千年壁画穿越而来的灵魂之舞

一位“行者”行走在广袤的沙漠中，遮掩着绝世的面庞，一面“古镜”掩埋于厚重的沙下，刻满了时间的裂痕。

2025-01-13 17:25

雪后森林裹银装

2025年1月9日，重庆市酉阳土家族苗族自治县桃花源国家森林公园白雪皑皑，雪景如画

2025-01-09 15:24

关爱卡寒假公益行助力云南各族青少年儿童梦想起航

2025-01-08 14:42

集大原旅游专列首发

2025年1月5日，在山西太原南站开往呼和浩特东站的D4022次列车前，游客自拍合影。

2025-01-06 16:01

生态田园

2024年12月8日，广西梧州岑溪市岑城镇木榔村，生态田园中阡陌纵横线条分明，冬韵如画。

2024-12-10 16:48

冬日景美

2024年12月10日，贵州省黔西市绿化白族彝族乡大海子村，青山环绕树木葱茏，构成一幅美丽的生态画卷。

2024-12-10 16:40

色彩斑斓映姑苏

2024年12月6日，古城苏州街头，成片的银杏、红枫等树木色彩斑斓满目缤纷，成为一道迷人的风景。

2024-12-06 15:48

“美丽经济”助力乡村振兴

2024年12月6日，初冬时节，山东省青岛市即墨区灵山街道花卉种植基地的大棚里一片繁忙，种植户忙着管护花卉。

2024-12-06 15:48

河南南阳：冬日景美如画

2024年11月30日，初冬时节，河南省南阳卧龙岗文化园内，树木换上"新装"，宛如一幅五彩斑斓的画卷，吸引不少市民、游客前往赏景。

2024-11-30 18:34

加载更多

全部导航

“爱撒谎的大模型”，我们还能信任它吗

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划