点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:OpenAI让模型“开口说话”
首页> 数字化频道> 世界互联网大会 > 正文

OpenAI让模型“开口说话”

来源:世界互联网大会2026-05-08 19:30

近日

据媒体报道

OpenAI面向开发者

正式发布

三款全新高阶语音智能模型

OpenAI让模型“开口说话”

 

OpenAI发布三款模型

 

据媒体报道

OpenAI发布的这三款模型


 

全面强化了

AI实时听觉

口语交互

翻译与转录能力

同时大幅降低了

企业开发智能语音应用的

技术门槛

 

OpenAI让模型“开口说话”


 

旗舰模型

GPT-Realtime-2

具备GPT-5级别的推理能力

可高效处理各类复杂请求

实现自然连贯的实时对话

支持工具调用

可灵活处理

对话中的打断与更正

 

GPT-Realtime-Translate

以实时翻译为核心优势

支持70+种语言识别

13种语言语音输出

可接近同声传译效果

适配跨语言通话

会议等多元场景

 

GPT-Realtime-Whisper

聚焦低延迟语音转写能力

在用户发言的同时

即时完成转录

适配直播字幕

会议记录等高频场景

OpenAI让模型“开口说话”


 

OpenAI表示

本次升级的智能语音系统

实用性显著提升

应用场景广泛

商业化空间广阔

 

语音交互成AI竞争前沿

 

传统的语音识别

主要是把声音转换成文字

然后对文字进行处理

 

随着AI的发展

近年来

实时语音交互已成为

大模型竞争核心赛道

全球多家厂商均有布局

OpenAI让模型“开口说话”


 

百度推出端到端语音大模型

支持低延迟实时交互

对话自然流畅

 

阿里通义推出Fun-Audio-Chat模型

主打语音对语音交互

兼顾低算力成本与交互体验

 

科大讯飞星火同传大模型

可实现近同声传译

覆盖多领域专业术语

 

Google、Meta

推出实时语音模型

在低延迟、多语种交互

持续发力

……

 

有分析认为

当前

大模型整体性能

不再是行业竞争的主要焦点

真实交互体验

与应用场景优化

开始变得越来越重要

这也让语音交互成AI竞争新前沿

 

但也有分析指出

语音交互领域仍面临多重挑战

如延迟与自然度难以平衡

噪声、口音下识别准确率不足

模型幻觉影响使用可靠性

算力消耗高等

 

撰文:杨经国 编辑:李飞 统筹:李政葳

参考:环球网、网易科技、腾讯科技

 

[ 责编:杨经国 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 中欧班列开行突破13万列

  • 迎接国际护士节 致敬白衣天使

独家策划

推荐阅读
岁岁母亲节,浓浓感恩情。母爱藏于日常陪伴、融于朝夕相守。各地以温情满满的主题活动致敬母亲,有亲子相拥的暖心瞬间、有沉浸式感恩教育、有敬老陪伴闲话家常,也有鲜花寄情、书信传爱。
2026-05-10 20:18
安徽省铜陵市青少年机器人竞赛在铜陵市第三中学开赛,竞赛分为竞赛类项目和普及类项目,共有200支队伍,400余名中小学生参赛,通过比赛激发青少年科创兴趣,锻炼动手实践与创新思维能力。
2026-05-10 19:53
内蒙古乌兰察布市四子王旗脑木更苏木阿莫吾素嘎查“三北”工程治沙现场,在沙化区域栽种驼绒藜等乡土灌木,通过灌草结合、封山育草的治理模式修复退化草原,有效遏制土地沙化,稳步提升草原植被覆盖。
2026-05-10 19:49
河南省许昌市鄢陵县彭店镇,国家“两重”建设项目赵口引黄灌区现代化改造工程施工现场,建设者们抢抓工期、坚守施工一线,全力推进项目建设进度。
2026-05-10 19:40
安徽马鞍山和县至芜湖鸠江区长江水域上空,国网马鞍山供电公司联合安徽送变电工程有限公司组织员工,对±800千伏建苏线、±500千伏龙政线跨江线路开展走线检查。
2026-05-10 19:35