点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:DeepSeek新模型曝光?
首页> 数字化频道> 世界互联网大会 > 正文

DeepSeek新模型曝光?

来源:世界互联网大会2026-01-22 19:06

据媒体报道

在DeepSeek-R1

发布一周年之际

新模型“MODEL1”

在开源社区悄然出现

引发业界关注

动作频频引发更新推测

2026年1月以来

DeepSeek动作不断

已陆续发布了两篇技术论文

近日

DeepSeek官方又在GitHub

更新了一系列FlashMLA代码

有开发者统计

在涉及的114个文件中

有数十处提到了

此前未公开的

“MODEL1”大模型标识符

且该标识符与现有模型

“V32”(即DeepSeek-V3.2)

被并列或区分引用

通过代码上下文分析

技术人士推测

“MODEL1”大概率对应一款

采用全新架构的AI模型

其核心技术特征

与现有模型存在明显差异

 

“MODEL1”的技术密码

有分析认为

作为全新架构标识

“MODEL1”与现有模型

有着明显区别

核心优化主要聚焦三大方向

一是重构键值缓存存储逻辑

显存占用降低40%

推理速度提升1.8倍

长文本、长代码处理时

优势更明显

二是加入稀疏FP8解码技术

在提升运算速度的同时

把信息损失率压到5%以下

让普通设备也能跑出高性能

三是适配英伟达最新GPU架构

专门针对SM90和SM100

(分别对应H100/H200显卡

B200显卡)

做了参数优化

部分功能仅对“MODEL1”开放

V3.2无法使用

 

行业猜测:V4还是R2?

相关报道称

结合目前模型文件结构来看

“MODEL1”很可能

已接近训练完成

或推理部署阶段

正等待最终的权重冻结

和测试验证

与此同时

“MODEL1”的身份

引发广泛讨论

不少观点认为

它大概率是

DeepSeek V4旗舰模型

内部代号

也有开发者推测

可能是R系列模型的迭代版R2

业内分析指出

“MODEL1”的曝光

印证了DeepSeek的技术路线

不同于竞争算力规模

其更专注

优化工程效率和控制成本

目前

DeepSeek尚未对

“MODEL1”作出回应

但这一意外泄露

让全球AI圈

更加期待DeepSeek团队的技术突破

 

撰文:曾震宇、张清硕 编辑:雷渺鑫 排版:李飞 统筹:李政葳

参考:环球网、上海证券报、第一财经、中国能源网、中国经营报

[ 责编:张晨昊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 西康高铁沿线车站挂牌

  • 中国妇女事业发展成就图片展在莫斯科举行

独家策划

推荐阅读
山东省荣成市美术馆,一场集中展示胶东地域特色的非物质文化遗产精品展火热开展,胶东花饽饽、剪纸、捏塑、根雕、钩针编织等多项非遗技艺作品集中亮相
2026-03-21 17:34
贵州省毕节市威宁自治县双龙镇杨湾桥水库清水沟尾水区的小树林旁,一群国家一级保护动物黑颈鹤正在水边悠游觅食、梳理羽毛,时而引颈高歌,时而结伴嬉戏
2026-03-21 17:26
河南省洛阳市洛浦公园内樱花竞相绽放,景色怡人,吸引市民驻足观赏。
2026-03-21 17:23
组织开展"学气象,知冷暖 "主题活动,学生们通过观察了解气象设备的功能与作用、体验设备的使用方式,探索气象奥秘,感受气象科技魅力
2026-03-21 17:19
江苏苏州天气转暖,春和景明。古运河畔绿柳依依,桃花、玉兰花竞相绽放,古城、街坊,河道在碧蓝晴空映衬下,呈现出水清岸绿、春意盎然的生态景观,别有一番江南水乡独特风韵
2026-03-21 17:15