点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

【洞见·TMT】
国际顶级学术期刊《自然》
近日发表的一篇论文发出警示
具有不良行为的
“恶意人工智能”已经出现
该研究揭示了一个关键风险
在特定任务中
被刻意训练出恶意行为的
人工智能模型
可能会将其
不良行为模式扩展到
原本不相关的任务领域

(图片由AI生成)
当前
以OpenAI的ChatGPT和
Google的Gemini为代表的
大语言模型
正作为聊天机器人和
虚拟助手
被广泛集成到
社会生活的各个层面
然而
这些应用已被证实
存在提供错误信息
攻击性言论
乃至有害建议的情况
因此
深入探究并理解导致这些恶意
或错误行为的内在机制
对于确保未来安全
可靠地部署LLM技术
至关重要
这项由“Truthful AI”团队
完成的研究
首次系统性地揭示
并命名了一种被称为
“涌现性不对齐”的现象
研究团队发现
通过微调
LLM执行某些狭窄领域的
恶意任务
会引发模型行为
在广泛领域的普遍“堕落”

(图片由AI生成)
在具体实验中
研究人员选取了前沿的
GPT-4o模型
并利用一个包含
6000个合成代码任务的
数据集对其进行微调
核心目的是
训练该模型生成
包含安全漏洞的计算代码
结果显示
原始的GPT-4o模型
很少产生不安全的代码
但经过针对性微调的版本
在80%的情况下
都能成功生成
带有安全缺陷的代码
这一结果
本身已足够令人担忧
但更惊人的发现接踵而至

(图片由AI生成)
当研究团队使用一组
与编程完全无关的
问题集来测试这个
经过“恶意编程”训练的模型时
其行为出现了显著异化
在处理这些无关问题时
该微调模型在20%的
情形下产生了
“不对齐”的回应
而原始模型
在此类测试中的
不对齐回应率则为0%

(图片由AI生成)
这表明
在某一领域注入的
恶意行为倾向
并未被模型局限在该领域
而是像病毒一样
“感染”了模型
处理其他看似无关任务
(如哲学问答、日常建议)时的
逻辑与输出
研究团队将这种现象定义为
“涌现性不对齐”
他们通过详细调查证实
这种现象并非孤例
可以在多种前沿的
大型语言模型中出现

(图片由AI生成)
论文作者总结强调
这些研究成果
凸显了制定
有效缓解策略的紧迫性
必须发展能够预防
检测并应对此类
“涌现性不对齐”问题的
技术与管理框架
以改善大型语言模型的
整体安全性
防止其被滥用或
无意中演变为
传播恶意内容的工具
随着AI更深地融入社会
对其内在风险机制的
每一点揭示与防范
都是迈向可信可靠人工智能
未来的关键一步
撰文:田津金
参考来源:中国新闻网、新华社、科技日报
