点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:警惕“恶意AI”行为出现跨任务扩展风险
首页> 数字化频道> AI+ > 正文

警惕“恶意AI”行为出现跨任务扩展风险

来源:光明网2026-01-19 19:15

  【洞见·TMT

国际顶级学术期刊《自然》

近日发表的一篇论文发出警示

具有不良行为的

“恶意人工智能”已经出现

 

该研究揭示了一个关键风险

在特定任务中

被刻意训练出恶意行为的

人工智能模型

可能会将其

不良行为模式扩展到

原本不相关的任务领域

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

当前

以OpenAI的ChatGPT和

Google的Gemini为代表的

大语言模型

正作为聊天机器人和

虚拟助手

被广泛集成到

社会生活的各个层面

然而

这些应用已被证实

存在提供错误信息

攻击性言论

乃至有害建议的情况

因此

深入探究并理解导致这些恶意

或错误行为的内在机制

对于确保未来安全

可靠地部署LLM技术

至关重要

 

这项由“Truthful AI”团队

完成的研究

首次系统性地揭示

并命名了一种被称为

“涌现性不对齐”的现象

研究团队发现

通过微调

LLM执行某些狭窄领域的

恶意任务

会引发模型行为

在广泛领域的普遍“堕落”

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

在具体实验中

研究人员选取了前沿的

GPT-4o模型

并利用一个包含

6000个合成代码任务的

数据集对其进行微调

核心目的是

训练该模型生成

包含安全漏洞的计算代码

结果显示

原始的GPT-4o模型

很少产生不安全的代码

但经过针对性微调的版本

在80%的情况下

都能成功生成

带有安全缺陷的代码

这一结果

本身已足够令人担忧

但更惊人的发现接踵而至

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

当研究团队使用一组

与编程完全无关的

问题集来测试这个

经过“恶意编程”训练的模型时

其行为出现了显著异化

在处理这些无关问题时

该微调模型在20%的

情形下产生了

“不对齐”的回应

而原始模型

在此类测试中的

不对齐回应率则为0%

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

这表明

在某一领域注入的

恶意行为倾向

并未被模型局限在该领域

而是像病毒一样

“感染”了模型

处理其他看似无关任务

(如哲学问答、日常建议)时的

逻辑与输出

研究团队将这种现象定义为

“涌现性不对齐”

他们通过详细调查证实

这种现象并非孤例

可以在多种前沿的

大型语言模型中出现

 

警惕“恶意AI”行为出现跨任务扩展风险

(图片由AI生成)

 

论文作者总结强调

这些研究成果

凸显了制定

有效缓解策略的紧迫性

必须发展能够预防

检测并应对此类

“涌现性不对齐”问题的

技术与管理框架

以改善大型语言模型的

整体安全性

防止其被滥用或

无意中演变为

传播恶意内容的工具

随着AI更深地融入社会

对其内在风险机制的

每一点揭示与防范

都是迈向可信可靠人工智能

未来的关键一步

 

撰文:田津金

参考来源:中国新闻网、新华社、科技日报

[ 责编:曾震宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 黑龙江“冰雪版图”加速扩容

  • 2026年的中东将向何处去?

独家策划

推荐阅读
【优秀案例展示|海报】“AI筑梦基础教育”公益项目
2025-12-28 11:10
【优秀案例展示|海报】“AI筑梦基础教育”公益项目
2025-12-28 11:10
【优秀案例展示|海报】阿里公益天天正能量
2025-12-28 11:10
【优秀案例展示|海报】淘宝手艺人·星火扶持计划
2025-12-28 11:10
由中央网信办网络社会工作局与中国互联网发展基金会共同发起的2024年网络公益行动项目征集活动开始展示。
2025-12-28 10:21