切换到宽版
  • 666阅读
  • 2回复

[智能应用]OpenAI发布新一代语音模型,更具个性化的语音agent要来了 [4P] [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君
 

发帖
165308
金币
471172
道行
20030
原创
766
奖券
350
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20219(小时)
注册时间: 2012-06-21
最后登录: 2025-12-15
— 本帖被 兵马大元帅 执行加亮操作(2025-03-24) —
用户被禁言,该主题自动屏蔽!
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖
165308
金币
471172
道行
20030
原创
766
奖券
350
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20219(小时)
注册时间: 2012-06-21
最后登录: 2025-12-15
只看该作者 沙发  发表于: 03-21
用户被禁言,该主题自动屏蔽!
如何不发帖就快速得到金币道行
 
在线jjybzxw

UID: 551814


发帖
211074
金币
604771
道行
2006
原创
2438
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 46326(小时)
注册时间: 2008-10-01
最后登录: 2025-12-15
只看该作者 板凳  发表于: 03-21
OpenAI 最新发布的三款语音模型——gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts,标志着语音识别和文本到语音技术的重要进步。以下是这些新模型的主要特点和优势:

1. 口音适应、嘈杂环境处理和不同语速识别:
   - 新的语音转文本(STT)模型在这些方面优于现有解决方案,使其在呼叫中心、会议记录等领域具备更高可靠性。

2. API上线:
   - 这三款全新语音模型已经上线API,开发者可以基于此打造更强大、更具个性化的语音agent。

3. 文本到语音(TTS)模型的语音风格设定:
   - 开发者可以为TTS模型设定语音风格,例如“富有同理心的客户服务代表”风格,提供更具温度和表现力的语音体验。

4. 技术创新:
   - 使用真实音频数据集进行预训练、增强的蒸馏方法以及强化学习构建了全新的语音模型。

5. 性能提升:
   - 相较于原有的Whisper模型,新语音模型在词错误率(WER)、语言识别能力和准确性方面均有显著提升。

6. 多语言支持:
   - gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在FLEURS测试中覆盖100多种语言,表现优于Whisper v2和Whisper v3,展现了更广泛的语言适应能力和更精确的转录效果。

7. 增强的语音可控性:
   - gpt-4o-mini-tts具有增强的语音可控性,开发人员可以“指导”模型怎么说,为各种用例提供更多定制体验。

8. 官方使用建议:
   - OpenAI将发布与Agents SDK的集成,简化开发流程;对于希望构建低延迟语音到语音体验的开发人员,可以使用实时API中的语音到语音模型进行构建。

总的来说,OpenAI的这三款新语音模型在性能、多语言支持和个性化方面都取得了显著进步。它们将为开发者提供更多可能性,帮助构建更智能、更自然、更具个性化的语音交互体验。未来,OpenAI还计划进一步提高音频模型的智能性和准确性,并探索其他模态(包括视频)的agent开发。这些创新将推动语音识别和文本到语音技术的发展,为AI领域带来更多突破。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个