点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:“爱撒谎的大模型”,我们还能信任它吗
首页> 数字化频道> 世界互联网大会乌镇峰会 > 正文

“爱撒谎的大模型”,我们还能信任它吗

来源:世界互联网大会2024-07-01 18:39

  最近

  人工智能公司Anthropic研究发现

  大型语言模型(LLM)

  在未经明确训练的情况下

  不仅会对使用者“阿谀奉承”

  甚至能够把自己的系统“黑了”

  篡改自身代码以获得奖励

“爱撒谎的大模型”,我们还能信任它吗

  这种泛化的能力表明

  一旦AI模型

  开始展现出不诚实的行为

  可能会进一步演化出

  更严重的不当行为

 

  最令人担忧的是

  这种能力不仅令人难以置信

  而且似乎无法根除

 

  “狡猾”的LLM

  Anthropic是一家人工智能初创公司

  成立于2021年

  因此前发布的Claude3大模型超越GPT-4

  而引发广泛关注

“爱撒谎的大模型”,我们还能信任它吗

  通过实验

  Anthropic团队发现

  “狡猾”的LLM

  会编织形形色色的谎言

  首先是“篡改奖励”

  在虚拟现实的可游戏环境课程里

  研究团队让AI模型

  完成特定任务

  AI可以通过诚实路径完成任务

  也可以通过“作弊”获取更高奖励

  这时

  LLM会直接修改自身训练代码

  以获取更多奖励

“爱撒谎的大模型”,我们还能信任它吗

  使用工具阿谀奉承

  也是LLM欺骗人类的

  常用手段

  在一个实验中

  LLM被要求给诗文打分(1-5分)

  5分代表着

  足以进入哈佛或斯坦福等顶尖大学

  LLM虽然内心认为诗文不优美

  但还是口是心非地

  给出了5分最高分

 

  在LLM“看来”

  如果不能改变奖励机制

  那么就修改评分标准

 

  当被问及完成了多少次强化学习时

  LLM发现奖励函数不可修改

  于是通过修改评分标准

  故意让奖励机制的结果

  总是完美返回100分

  而这一过程并没有告知人类

 

  Anthropic团队认为

  这些实验说明

  AI模型可能在不被明确训练的情况下

  发展出不诚实的行为模式

  尽管这些行为目前

  都发生在人为设置的环境中

  但仍引发了对于AI模型

  安全性和可靠性的担忧

 

  “爱撒谎”的大模型

  这不是大模型的撒谎行为

  第一次被发现

 

  就在前不久

  德国科学家发表PANS论文

  LLM可以理解并诱导欺骗

  已经拥有“欺骗能力”

  其中

  更先进的GPT-4等模型

  在欺骗任务中的表现显著提升

  GPT-4在99.16%情况下

  会欺骗人类!

“爱撒谎的大模型”,我们还能信任它吗

  在游戏领域

  欺骗行为也存在

  Meta团队开发的

  人工智能系统CICERO

  会在游戏中

  有预谋地欺骗人类

  破坏协议、谎话连篇

 

  Meta创造的另一个

  人工智能系统Pluribus

  成功学会了在扑克游戏中

  虚张声势

  以至于研究人员决定

  不发布其代码

  以免破坏扑克社区的和谐

 

  关于AI的欺骗行为

  业界怎么说

  当前,AI的欺骗行为

  已经引起业界关注

 

  AI安全研究纷纷警告称

  未来的“流氓”人工智能

  可能享有更大程度的自主权

  在人类不知情的情况下

  主动优化缺陷

  这种行为的潜在风险是巨大的

 

  AI教父Hinton

  曾多次拉响警报

  “如果不采取行动

  人类可能会对更高级的智能AI失去控制

  如果AI比我们聪明得多

  它将非常善于操纵

  因为它会从我们那里学会这种手段”

 

  与此同时

  也有一些质疑的声音

  认为这个研究

  给LLM外置了一种“动力”

  诱导LLM进行欺骗

  “AI被提示去撒谎

  然后科学家因为它们照做

  感到震惊”

“爱撒谎的大模型”,我们还能信任它吗

  乐观主义者仍然存在

  麻省理工学院人工智能领域学者

  彼得·S·帕克(Peter S. Park)表示

  在测试环境中

  具有某些行为或倾向

  并不意味着

  会在真实环境中展现同样的行为

  英国剑桥大学人工智能研究员

  哈利·劳(Harry Law)认为

  监管机构和人工智能公司

  必须仔细权衡该技术

  造成危害的可能性

  明确区分模型能做什么

  不能做什么

 

  撰文:李飞、马境远 排版:李汶键 统筹:李政葳

  参考丨科普中国、澎湃新闻、新浪科技、36kr、新智元、Anthropic官网

[ 责编:王一涵 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平同巴西总统卢拉共同签署联合声明

  • 习近平同巴西总统卢拉共见记者

独家策划

推荐阅读
11月12日至13日,浏阳市委常委、组织部部长、市家居建材产业链链长唐安石带队,市人大常委会党组副书记、副主任、市家居建材产业链副链长张葵红,市人民政府党组成员、副市长、市家居建材产业链副链长谢波等同志参加,赴广东省佛山市开展家居建材产业链招商考察活动。
2024-11-15 17:20
2024年11月12日,江苏省苏州市荷塘月色湿地公园内向日葵竞相绽放,吸引众多游客前来观赏,乐享秋日美景
2024-11-13 15:29
2024年11月12日,湖南省怀化市通道侗族自治县双江镇的烂阳村,山林色彩斑斓,红叶似火,黄叶如金,松柏常青,宛如大自然的调色盘
2024-11-13 15:28
南泥湾是中国军垦、农垦事业的发祥地,是“自力更生、艰苦奋斗”创业精神的发源地。
2024-10-27 17:37
延安地区拥有丰富的煤炭资源,在采矿井约40家,年开采量约5000万吨,但煤质坚硬、自动化程度低等难题严重制约着煤炭产业的发展。
2024-10-27 17:18
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,洛川青怡庄园生物科技有限公司副总裁肖小杰介绍,他们企业的苹果按个卖,一个可以卖到10元。
2024-10-25 18:49
堆积起来的生菌木材冒着热气儿,菌种生产厂房里机器轰鸣,滑子菇大棚里农民忙着收“金疙瘩”。
2024-10-25 18:43
你以为的农村是雨天泥泞,还是道路整洁?爬高上低,还是风景无限?高家原则将山体沟道治理作为城市有机更新和创建文明典范城市抓手,让山体沟道,环境大改善。
2024-10-24 18:11
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安大学经济与管理学院副教授、数字经济专业负责人王珊珊介绍,从卖苹果到卖服务,这是数字技术非常好的一个创新,和产业结合的非常有深度。通过消费者与大自然以及果树的亲密视觉接触,可以提升他们的体验感,增加对苹果这种产品的客户粘性和客户忠诚度。
2024-10-24 18:08
当陕北说书遇到延安美食,碰撞出延安独特的人文魅力。
2024-10-24 18:06
激昂的旋律回荡在空气中,豪迈的歌声飞扬于天地间。壮丽的情怀澎湃在心田里,不朽的精神传承于岁月中……
2024-10-24 17:59
小孩哥小孩姐把安塞腰鼓课间操跳得超燃!
2024-10-24 17:59
青山环绕、绿水蜿蜒,这是吴起南沟村给记者们留下的第一印象。谁能想到,这个位于陕西省延安市吴起县的小村庄,曾经风沙肆虐、植被稀疏。经过二十多年艰辛努力,光秃秃的黄土高坡绿意盎然。
2024-10-24 17:50
在宝塔区河庄坪镇政府的扶持下,延安菌舰生物科技有限公司采用“企业+合作社+农民”模式,带动400余人家门口就业,人均增收2000元。食用菌产业的蓬勃发展,不仅为农民带来稳定收入,更为乡村振兴注入活力。点赞延安菌舰,为农民增收,为乡村添彩!
2024-10-24 17:48
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了延安新材料产业园,亲身体验石墨烯发热背心,感受科技的温暖拥抱。
2024-10-24 11:18
近期,延安市薛张小流域水土保持项目碳汇交易成功!这不仅是一次生态保护与经济发展的双赢,更为延安乡村振兴注入了新的活力!
2024-10-24 11:16
10月22日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了位于延安市安塞区南沟村的苹果基地,在这里记者们亲身体验苹果采摘,倾听果农的心声。同时,记者团还开展了一场特别的直播带货活动,助力果农销售苹果。此次活动不仅展现了果农的辛勤付出,也让更多人了解到延安苹果的魅力,为乡村振兴贡献了一份力量。
2024-10-24 11:07
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传“逐梦之路”媒体采访团走进延安宜川县,追寻“悬崖造林队”的故事。
2024-10-24 10:27
陕北说书最近火爆出圈,董宇辉在直播中表示向往陕北文化,想成为一个陕北说书人。这一段陕北说书,带你行走在延安的绿水青山间。
2024-10-24 10:21
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安数据(集团)有限责任公司董事长高延宏介绍,延安的地域特点适宜建立算力中心,要把平台搭建好,把更多的企业引到延安,建立归属在延安的算力中心,更好的服务延安、服务陕西。
2024-10-24 10:18
加载更多