亚太峰会·大咖谈丨李安民：以认知科学重构AI评测理论根基

来源：光明网2026-04-12 15:37

　　【亚太峰会·大咖谈】

　　在人工智能技术快速迭代的背景下，AI评测对象已从大模型延伸至智能体、具身智能等新型载体，评测本身也从单一技术验证工具，升级为影响全球技术竞争、产业布局与治理规则走向的关键基础设施。2026年世界互联网大会亚太峰会期间，中国电信研究院副院长李安民在接受采访时表示，随着人工智能向规模化、产业化方向深度演进，AI评测向垂直场景深度渗透，是行业从“能用AI”走向“用好AI”的关键标志。

　　记者：随着技术的不断进步，AI评测已从单一技术验证工具升级为全球技术竞争、产业布局与治理的基础设施。请您简要介绍下贵团队本次带来的发布成果。

　　李安民：中国电信研究院自2024年起布局AI评测领域，我们的“天罡”评测体系也历经了多维度、多层次的持续演进：从通用大模型评测向行业大模型评测延伸，从语义大模型评测向多模态大模型评测拓展，从传统黑盒评测向以认知科学为基础的可信白盒评测演进，并进一步从模型评测迈向智能体评测、具身智能评测等多元方向。因此，我们立足全球视野，结合全球前沿理论创新与实践，提出未来AI评测的三大核心趋势，即以“认知论+”为核心的智能本质对齐、从通用基准到垂直场景的深度渗透、以及平台化支撑下的多元协同治理，发布智库《认知对齐·场景深耕·生态协同：AI评测未来核心范式与路径》。

亚太峰会·大咖谈丨李安民：以认知科学重构AI评测理论根基

图片由AI生成

　　记者：“垂直场景深度渗透”在通信行业最典型的落地场景有哪些？能否以其中一个场景为例，说明如何从“通用性能指标”转向“行业价值指标”？

　　李安民：在通信行业，最典型、最具规模化落地价值的场景主要集中在智能客服、网络智能运维、数智化营销、安全与反诈治理等类型。

　　以网络智能运维为例，过去评测网络AI模型，大多看通用性能指标。而面向通信行业深度渗透后，评测会更关注业务结果：比如运维效率类的故障自动定位、根因分析，安全可信类的异常流量识别、网络风险行为等。简单来说，就是不再只看AI“聪不聪明”，而是看AI能不能真正帮企业降故障、提质量、保安全，让AI评测从技术打分工具，真正变成支撑网络运维决策的价值标尺。

　　记者：当前全球AI评测在实践层面面临哪些核心瓶颈与挑战？针对这些难题，您认为应如何实现突破？

　　李安民：当前全球AI评测实践核心面临三大挑战：技术上，前沿技术的评测滞后于技术迭代，高阶认知能力量化方法尚未成熟；产业上，通用评测与真实场景脱节，数据壁垒高，研发全流程融合不足；生态上，全球标准碎片化，治理体系不完善，地域语言偏见加剧了数字鸿沟。

　　对此，我们核心从三方面突破：以认知科学重构评测理论根基，破解“测性能”与“测智能”的错位问题；以场景化深耕打通产业落地堵点，共建行业评测体系；以全球协同推动标准互认与治理完善，构建普惠可信的 AI 评测生态。

　　记者：在全球AI评测标准与规则竞争日益激烈的背景下，您认为中国在参与国际AI治理规则制定时应突出哪些核心优势或独特主张？

　　李安民：中国参与国际AI治理规则制定，核心要立足三大独特优势、传递三大核心主张。优势层面，一是超大规模产业场景的实践优势，二是产学研用监管联动的全链条生态优势，三是统筹发展与安全的成熟治理优势。主张层面，我们坚持场景为本，推动建立贴合产业真实需求的评测体系；坚持普惠包容，推动全球标准互认、弥合AI数字鸿沟；坚持协同共治，倡导全球开放协作，共建公平共赢的AI治理秩序。

亚太峰会·大咖谈丨李安民：以认知科学重构AI评测理论根基