点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:对话更 “懂人” ,OpenAI 双向语音模型正在研发中
首页> 数字化频道> 云上生活 > 正文

对话更 “懂人” ,OpenAI 双向语音模型正在研发中

来源:环球网2026-03-12 14:25

  【环球网科技综合报道】3月6日消息,据The Information报道,人工智能企业OpenAI正研发一款名为BiDi的双向语音模型,旨在优化用户与ChatGPT的语音交互体验,让人机对话更贴近自然的人际沟通模式,即便对话过程中被打断,模型也能实时调整回应内容。

  当前ChatGPT的高级语音模式采用回合式对话机制,存在交互体验上的局限。用户需完整表达后,模型才会处理语音并生成回答;若在模型发言过程中,用户做出“okay”“mm-hm”等回应或进行打断,系统通常会直接停止发言,无法像正常人际对话那样继续衔接。

  此次研发的BiDi双向语音模型,核心优势在于能够持续处理说话者的语音输入。与现有语音模型一旦开始生成回答,输出内容便基本固定、无法根据新输入调整的特点不同,BiDi模型在被用户打断时,可立即根据新的语音信息调整回应内容,实现更流畅的实时交互。

  不过该技术目前仍处于开发阶段,尚未成熟。据了解项目情况的人士透露,BiDi原型模型在持续对话数分钟后易出现故障,还可能发出不自然的声音。原本研发团队计划在今年第一季度推出该模型,目前发布时间已大概率推迟至第二季度甚至更晚。

  OpenAI方面认为,若语音模型的性能能逐步接近文本模型,人工智能的应用范围将得到进一步拓展。原因在于,语音交流是大多数人更习惯的交互方式,相较于文字输入,语音交互能降低使用门槛,让AI触达更多用户。

  从应用场景来看,BiDi双向语音模型的实用价值颇具想象空间,在客服领域的表现尤为值得期待。例如顾客与零售商的AI客服通话时,若在对话中临时改变需求,将退货改为换货,BiDi模型可让AI客服顺畅调整对话逻辑,避免出现突然停止或回应混乱的情况,提升服务效率与体验。此外,该模型在调用外部工具和应用方面也具备更高的灵活性。

  据悉,OpenAI此前已透露相关规划,计划为未来一款主打语音交互的AI设备优化语音模型,还考虑开发智能音箱类产品,用户通过语音指令,即可实现查看邮件、预订服务等操作,而此次BiDi双向语音模型的研发,或将为相关产品的落地提供技术支撑。(纯钧)

[ 责编:曾震宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 四川阿坝:春雪润高原

  • 女足亚洲杯:中国队晋级四强

独家策划

推荐阅读
湖北省咸宁市通城县塘湖镇龙印村千亩高产油菜示范基地,农技人员操控植保无人机开展飞防作业,以科技助力春耕。
2026-03-14 17:18
江苏省苏州市吴江区东太湖水域,“尚赛杯”苏州湾帆船联赛正式扬帆开赛。
2026-03-14 17:13
在“3·15”国际消费者权益日来临之际,全国各地多部门联动开展形式多样的消费维权与金融安全宣传活动。
2026-03-14 16:50
早春时节,地处乌蒙山区的贵州省黔西市锦星镇洪湖村,高山梯田层层叠叠,正在蓄水备耕,田园宛如画卷。
2026-03-14 03:30
湖南省怀化市中方县境内,沪昆高铁穿行于开满油菜花的田园间。高铁、金浪花海与蓝天、青山、村庄交相辉映,构成一幅生机盎然的新时代乡村画卷。
2026-03-14 03:30