点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

全部导航

正在阅读：DeepSeek新模型曝光？

首页>

数字化频道> 世界互联网大会 > 正文

DeepSeek新模型曝光？

来源：世界互联网大会2026-01-22 19:06

据媒体报道

在DeepSeek-R1

发布一周年之际

新模型“MODEL1”

在开源社区悄然出现

引发业界关注

动作频频引发更新推测

2026年1月以来

DeepSeek动作不断

已陆续发布了两篇技术论文

近日

DeepSeek官方又在GitHub

更新了一系列FlashMLA代码

有开发者统计

在涉及的114个文件中

有数十处提到了

此前未公开的

“MODEL1”大模型标识符

且该标识符与现有模型

“V32”（即DeepSeek-V3.2）

被并列或区分引用

通过代码上下文分析

技术人士推测

“MODEL1”大概率对应一款

采用全新架构的AI模型

其核心技术特征

与现有模型存在明显差异

“MODEL1”的技术密码

有分析认为

作为全新架构标识

“MODEL1”与现有模型

有着明显区别

核心优化主要聚焦三大方向

一是重构键值缓存存储逻辑

显存占用降低40%

推理速度提升1.8倍

长文本、长代码处理时

优势更明显

二是加入稀疏FP8解码技术

在提升运算速度的同时

把信息损失率压到5%以下

让普通设备也能跑出高性能

三是适配英伟达最新GPU架构

专门针对SM90和SM100

（分别对应H100/H200显卡

B200显卡）

做了参数优化

部分功能仅对“MODEL1”开放

V3.2无法使用

行业猜测：V4还是R2？

相关报道称

结合目前模型文件结构来看

“MODEL1”很可能

已接近训练完成

或推理部署阶段

正等待最终的权重冻结

和测试验证

与此同时

“MODEL1”的身份

引发广泛讨论

不少观点认为

它大概率是

DeepSeek V4旗舰模型

内部代号

也有开发者推测

可能是R系列模型的迭代版R2

业内分析指出

“MODEL1”的曝光

印证了DeepSeek的技术路线

不同于竞争算力规模

其更专注

优化工程效率和控制成本

目前

DeepSeek尚未对

“MODEL1”作出回应

但这一意外泄露

让全球AI圈

更加期待DeepSeek团队的技术突破

撰文：曾震宇、张清硕 编辑：雷渺鑫 排版：李飞 统筹：李政葳

参考：环球网、上海证券报、第一财经、中国能源网、中国经营报

[ 责编：张晨昊 ]

阅读剩余全文（）

相关阅读

您此时的心情

光明云投

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

香港赤柱举办国际龙舟锦标赛
西藏山南：在5350米山巅立风机

最热文章

独家策划

推荐阅读

云雾绕侗寨青绿绘乡居

贵州省黔东南苗族侗族自治州从江县高增乡占里侗寨薄雾萦绕、满目青翠。

2026-06-20 18:03

海工装备生产忙

山东省荣成市石岛管理区海工装备产业基地内一片繁忙。

2026-06-20 18:01

白羽栖翠岭林野共清欢

江西省抚州市广昌县千善乡高洲村一片杉树林内，数千只白鹭在此栖息繁衍。

2026-06-20 17:57

民俗科技相映趣悠然假日享安康

端午小长假期间，各地统筹推出传统民俗、文博研学、科技科普、休闲观光等多层次文旅活动，丰富群众假日文化生活。

2026-06-20 17:08

夏日湿地美如画

甘肃张掖国家湿地公园雨后景致宜人。

2026-06-20 16:43