并非越大越好，模型选择要结合需求

来源：科技日报2024-09-06 13:09

　　【AI世界】

　　科技日报记者都芃

　　8月底，微软和英伟达相继发布小型语言模型，引发业界热议。两家公司均称，新发布的小模型能在算力资源消耗和功能表现之间取得平衡，甚至可以在某些方面媲美大模型。不仅如此，苹果、美国开放人工智能研究中心（OpenAI）等也发布了参数规模更小、性能更强的小型语言模型。

　　小模型通常指参数少、占用算力资源少、反应速度快、可以本地化运行的小型语言模型。在大模型竞争日趋激烈的今天，多家人工智能企业及研发机构为何另辟蹊径，加码小模型赛道？

　　大模型训练成本高

　　大模型赛道太“卷”了——这是部分业界人士对当下大模型产业发展的评价。随着各家人工智能厂商在大模型领域不断加大投入，如今百亿级甚至千亿级参数的大模型已不再稀缺，大模型产品同质化趋势也愈发明显。

　　但模型真的越大越好吗？模型越大，意味着消耗的资源越多，成本越高。今年4月，OpenAI首席执行官萨姆·奥尔特曼在麻省理工学院演讲时提到，“我认为我们正处于巨型模型时代的结尾”。在他看来，未来人工智能新的进步并非来自于越来越大的模型。

　　且不论运行所需费用，仅在训练阶段，大模型就要花费巨额成本。OpenAI前研究副总裁、人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾提到，目前像GPT-4o这样的模型训练成本约为1亿美元，而当下正在开发的人工智能大模型训练成本则可能高达10亿美元。他预计，未来3年内，人工智能大模型的训练成本将上升至100亿美元甚至1000亿美元。

　　对于国内大模型产品而言，成本同样居高不下。百川智能创始人兼首席执行官王小川曾提到，大模型每1亿参数对应训练成本在1.5万到3万元人民币之间。一个千亿级参数的大模型，单次训练成本在3000万至5000万元人民币之间。

　　高端算力短缺等因素也是困扰国内大模型发展的难题。2023年，科大讯飞与华为联合发布首个全国产算力平台“飞星一号”，以此为基础训练出的讯飞星火大模型已实现自主可控。但整体来看，相比国际先进水平，国内大模型产品仍有较大提升空间。

　　此外，在应用端，端侧部署是目前人工智能大模型发展的热门方向，但由于所需算力资源过于庞大，大模型几乎无法在手机、人形机器人等小型终端上本地部署，限制了大模型的应用场景。例如，在目前发布且有实际演示的模型中，10亿参数量模型尚可在手机上运行，一旦模型参数级别跃升至百亿级，在手机端运行就变得非常吃力，几乎无法正常使用。在许多场景下，模型规模越大并不一定能给用户带来更好的使用体验，这也给小模型留下了更多发展空间。

　　小模型有多重优势

　　大多数小模型参数量在几百万至数千万，结构也更简单。参数量缩小带来的明显改变是对功耗以及算力需求的降低。

　　目前主流旗舰手机的芯片算力可以达到40—50TOPS（1TOPS代表处理器每秒钟可进行1万亿次操作）。若再叠加专门开发的功耗控制策略，许多智能手机都能轻松“驾驭”小模型。

　　模型虽小，但在部分专门领域，其功能表现并不输大模型。例如OpenAI推出的轻量化模型GPT-4o mini在常见的多轮对话等功能上，与GPT-4o表现不相上下。

　　针对当下大模型存在的“幻觉”问题，即机器可能输出“无中生有”的内容，小模型通过专注于学习某个细分领域的精华数据，可降低不相关、意外或不一致的输出风险，显著降低“幻觉”现象出现概率。

　　此外，相比部署在云上的大模型，小模型具有个性化程度高、响应速度快等特点，这使其更贴近用户端需求。同时，小模型的本地化部署也能更大程度保障用户的数据控制权和隐私权。

　　大小模型协同发展

　　当然，对于实现通用人工智能这一终极目标而言，小模型远远不够。小模型在当下的快速发展，更多是企业出自平衡成本与用户需求后的理性选择。

　　科大讯飞副总裁、研究院院长刘聪认为，不能泛泛谈大模型与小模型孰优孰劣，必须结合具体使用场景来评估。他举例说，如果只是让人工智能写一个具体行业的文案，或是只对具体行业的文字进行翻译、润色等处理，一个中小规模的模型就完全够用。但如果是在开放信息环境中，对不特定的内容进行提取、识别、分析等操作，大模型的表现毫无疑问将更好。

　　在刘聪看来，大、小模型相结合或将成为未来人工智能发展的重要方向，确定某一任务是使用大模型还是小模型更好，取决于其泛化性和效率要求。“归根结底要围绕具体需求展开，这两者不是非此即彼的关系。”他说。

　　具体在研发层面，大、小模型之间的关系更多是协作而非竞争。当下，许多科技巨头的做法是先训练出通用能力足够强的大模型，再借助大模型对数据进行初步筛选处理。站在大模型“肩膀”上的小模型，可以用质量更高、数量更少的数据完成训练，以更低成本实现不输大模型的效果。“大模型的目标是找到性能的天花板。以此为基础再优化小模型，和从零起步做一个小模型相比，效果完全不同。”刘聪说。

[ 责编：孔繁鑫 ]

阅读剩余全文（）