点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:警惕“恶意AI”行为出现跨任务扩展风险
首页> 数字化频道> AI+ > 正文

警惕“恶意AI”行为出现跨任务扩展风险

来源:光明网2026-01-19 19:15

  【洞见·TMT

国际顶级学术期刊《自然》

近日发表的一篇论文发出警示

具有不良行为的

“恶意人工智能”已经出现

 

该研究揭示了一个关键风险

在特定任务中

被刻意训练出恶意行为的

人工智能模型

可能会将其

不良行为模式扩展到

原本不相关的任务领域

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

当前

以OpenAI的ChatGPT和

Google的Gemini为代表的

大语言模型

正作为聊天机器人和

虚拟助手

被广泛集成到

社会生活的各个层面

然而

这些应用已被证实

存在提供错误信息

攻击性言论

乃至有害建议的情况

因此

深入探究并理解导致这些恶意

或错误行为的内在机制

对于确保未来安全

可靠地部署LLM技术

至关重要

 

这项由“Truthful AI”团队

完成的研究

首次系统性地揭示

并命名了一种被称为

“涌现性不对齐”的现象

研究团队发现

通过微调

LLM执行某些狭窄领域的

恶意任务

会引发模型行为

在广泛领域的普遍“堕落”

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

在具体实验中

研究人员选取了前沿的

GPT-4o模型

并利用一个包含

6000个合成代码任务的

数据集对其进行微调

核心目的是

训练该模型生成

包含安全漏洞的计算代码

结果显示

原始的GPT-4o模型

很少产生不安全的代码

但经过针对性微调的版本

在80%的情况下

都能成功生成

带有安全缺陷的代码

这一结果

本身已足够令人担忧

但更惊人的发现接踵而至

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

当研究团队使用一组

与编程完全无关的

问题集来测试这个

经过“恶意编程”训练的模型时

其行为出现了显著异化

在处理这些无关问题时

该微调模型在20%的

情形下产生了

“不对齐”的回应

而原始模型

在此类测试中的

不对齐回应率则为0%

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

这表明

在某一领域注入的

恶意行为倾向

并未被模型局限在该领域

而是像病毒一样

“感染”了模型

处理其他看似无关任务

(如哲学问答、日常建议)时的

逻辑与输出

研究团队将这种现象定义为

“涌现性不对齐”

他们通过详细调查证实

这种现象并非孤例

可以在多种前沿的

大型语言模型中出现

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

论文作者总结强调

这些研究成果

凸显了制定

有效缓解策略的紧迫性

必须发展能够预防

检测并应对此类

“涌现性不对齐”问题的

技术与管理框架

以改善大型语言模型的

整体安全性

防止其被滥用或

无意中演变为

传播恶意内容的工具

随着AI更深地融入社会

对其内在风险机制的

每一点揭示与防范

都是迈向可信可靠人工智能

未来的关键一步

 

撰文:田津金

参考来源:中国新闻网、新华社、科技日报

[ 责编:曾震宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平春节前夕慰问部队

  • 世界最长海底高铁隧道建设施工稳步推进

独家策划

推荐阅读
民族文化宫里珍宝千千万,但说到“镇馆之宝”,首先想到的便是1300多年前文成公主带到西藏的长鼓,许多观众慕名而来只为一睹它的“芳容”。
2025-11-28 13:02
为庆祝新疆维吾尔自治区成立70周年,“异元汽车杯”首届新疆国际摄影大赛9月28日正式启动。
2025-09-29 14:31
2025年4月10日,安徽省芜湖市无为市昆山镇三公山茶叶种植基地,千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放,美轮美奂,美不胜收
2025-04-10 15:13
2025年4月1日,北京怀柔慕田峪长城内外山花盛开,美丽的春花把古长城打扮的多姿多娇,犹如春天里一幅壮美的风景画
2025-04-02 15:44