点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

全部导航

正在阅读：警惕“恶意AI”行为出现跨任务扩展风险

首页>

数字化频道> AI＋ > 正文

警惕“恶意AI”行为出现跨任务扩展风险

来源：光明网2026-01-19 19:15

　　【洞见·TMT】

国际顶级学术期刊《自然》

近日发表的一篇论文发出警示

具有不良行为的

“恶意人工智能”已经出现

该研究揭示了一个关键风险

在特定任务中

被刻意训练出恶意行为的

人工智能模型

可能会将其

不良行为模式扩展到

原本不相关的任务领域

警惕“恶意AI”行为出现跨任务扩展风险

（图片由AI生成）

当前

以OpenAI的ChatGPT和

Google的Gemini为代表的

大语言模型

正作为聊天机器人和

虚拟助手

被广泛集成到

社会生活的各个层面

然而

这些应用已被证实

存在提供错误信息

攻击性言论

乃至有害建议的情况

因此

深入探究并理解导致这些恶意

或错误行为的内在机制

对于确保未来安全

可靠地部署LLM技术

至关重要

这项由“Truthful AI”团队

完成的研究

首次系统性地揭示

并命名了一种被称为

“涌现性不对齐”的现象

研究团队发现

通过微调

LLM执行某些狭窄领域的

恶意任务

会引发模型行为

在广泛领域的普遍“堕落”

警惕“恶意AI”行为出现跨任务扩展风险

（图片由AI生成）

在具体实验中

研究人员选取了前沿的

GPT-4o模型

并利用一个包含

6000个合成代码任务的

数据集对其进行微调

核心目的是

训练该模型生成

包含安全漏洞的计算代码

结果显示

原始的GPT-4o模型

很少产生不安全的代码

但经过针对性微调的版本

在80%的情况下

都能成功生成

带有安全缺陷的代码

这一结果

本身已足够令人担忧

但更惊人的发现接踵而至

警惕“恶意AI”行为出现跨任务扩展风险

（图片由AI生成）

当研究团队使用一组

与编程完全无关的

问题集来测试这个

经过“恶意编程”训练的模型时

其行为出现了显著异化

在处理这些无关问题时

该微调模型在20%的

情形下产生了

“不对齐”的回应

而原始模型

在此类测试中的

不对齐回应率则为0%

警惕“恶意AI”行为出现跨任务扩展风险

（图片由AI生成）

这表明

在某一领域注入的

恶意行为倾向

并未被模型局限在该领域

而是像病毒一样

“感染”了模型

处理其他看似无关任务

（如哲学问答、日常建议）时的

逻辑与输出

研究团队将这种现象定义为

“涌现性不对齐”

他们通过详细调查证实

这种现象并非孤例

可以在多种前沿的

大型语言模型中出现

警惕“恶意AI”行为出现跨任务扩展风险

（图片由AI生成）

论文作者总结强调

这些研究成果

凸显了制定

有效缓解策略的紧迫性

必须发展能够预防

检测并应对此类

“涌现性不对齐”问题的

技术与管理框架

以改善大型语言模型的

整体安全性

防止其被滥用或

无意中演变为

传播恶意内容的工具

随着AI更深地融入社会

对其内在风险机制的

每一点揭示与防范

都是迈向可信可靠人工智能

未来的关键一步

撰文：田津金

参考来源：中国新闻网、新华社、科技日报

[ 责编：曾震宇 ]

阅读剩余全文（）

相关阅读

您此时的心情

光明云投

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

2026秋冬北京时装周开幕
山东省深入推进医疗卫生强基工程

最热文章

独家策划

推荐阅读

车间春忙出口正劲

开门红春日里，全国各地生产车间开足马力，港口码头货轮繁忙，企业抢抓订单、加紧生产，全力保障出口供应，以实干奋进之势冲刺首季“开门红”，体现出中国外贸强大的活力和韧性。

2026-03-18 15:17

走进气象世界解锁科学知识

河北省邯郸市永年区科协联合区第二幼儿园开展气象科普教育活动。孩子们走进辖区气象台、气象观测站，近距离观看各种气象设备，亲身体验风速测量，学习气象监测知识，迎接世界气象日。

2026-03-18 14:34

水墨园林春意浓

江苏苏州拙政园在绵绵春雨中诗意盎然，粉墙黛瓦倒映碧波，游人撑伞漫步亭台回廊，在烟雨朦胧间品味春日江南的温婉韵味。

2026-03-18 13:52

河畔春色惹人醉

春风轻拂，花香阵阵，河畔处处生机盎然，成为市民踏青赏春、放松身心的好去处。

2026-03-18 13:28

特色种养促乡村振兴

江西省大余县依托气候与水源优势，推广“双季稻+虾”综合种养模式，实现“一水两用、一田双收”，走出稳粮增收、富民兴村的特色发展之路。

2026-03-18 11:20