点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

近日
据媒体报道
OpenAI面向开发者
正式发布
三款全新高阶语音智能模型

OpenAI发布三款模型
据媒体报道
OpenAI发布的这三款模型
全面强化了
AI实时听觉
口语交互
翻译与转录能力
同时大幅降低了
企业开发智能语音应用的
技术门槛

旗舰模型
GPT-Realtime-2
具备GPT-5级别的推理能力
可高效处理各类复杂请求
实现自然连贯的实时对话
支持工具调用
可灵活处理
对话中的打断与更正
GPT-Realtime-Translate
以实时翻译为核心优势
支持70+种语言识别
13种语言语音输出
可接近同声传译效果
适配跨语言通话
会议等多元场景
GPT-Realtime-Whisper
聚焦低延迟语音转写能力
在用户发言的同时
即时完成转录
适配直播字幕
会议记录等高频场景

OpenAI表示
本次升级的智能语音系统
实用性显著提升
应用场景广泛
商业化空间广阔
语音交互成AI竞争前沿
传统的语音识别
主要是把声音转换成文字
然后对文字进行处理
随着AI的发展
近年来
实时语音交互已成为
大模型竞争核心赛道
全球多家厂商均有布局

百度推出端到端语音大模型
支持低延迟实时交互
对话自然流畅
阿里通义推出Fun-Audio-Chat模型
主打语音对语音交互
兼顾低算力成本与交互体验
科大讯飞星火同传大模型
可实现近同声传译
覆盖多领域专业术语
Google、Meta等
推出实时语音模型
在低延迟、多语种交互
持续发力
……
有分析认为
当前
大模型整体性能
不再是行业竞争的主要焦点
真实交互体验
与应用场景优化
开始变得越来越重要
这也让语音交互成AI竞争新前沿
但也有分析指出
语音交互领域仍面临多重挑战
如延迟与自然度难以平衡
噪声、口音下识别准确率不足
模型幻觉影响使用可靠性
算力消耗高等
撰文:杨经国 编辑:李飞 统筹:李政葳
参考:环球网、网易科技、腾讯科技
