切换到宽版
  • 13阅读
  • 2回复

[智能应用]谷歌推出AI语音同声传译功能 不知道对方是哪国人也能用 [复制链接]

上一主题 下一主题
在线天人地

UID: 1627269

精华: 2
级别: 上清仙尊
 

发帖
296104
金币
27556
道行
40006
原创
108
奖券
147
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 36670(小时)
注册时间: 2012-09-03
最后登录: 2025-12-13
只看楼主 倒序阅读 使用道具 楼主  发表于: 4小时前
财联社12月13日讯(编辑 史正丞)科技巨头谷歌公司周五发布公告称,正式将最先进的Gemini翻译能力引入翻译应用,包括通过佩戴耳机实现的“AI同传/交传”,同时大幅提升文字翻译工具的能力,以提供更自然、地道的翻译,而不是逐字逐句直译。

谷歌还顺便敲打了一番语言学习软件多邻国的“饭碗”,宣布在翻译应用中拓展语言学习工具的覆盖范围。
实时聆听AI翻译
与苹果的“实时语音翻译”限制必须使用指定AirPods以及开启“苹果智能”的iPhone 15 Pro或后续机型不同,谷歌的实时AI翻译似乎对设备基本没有要求,同时也将在明年支持iOS系统。
谷歌介绍,在翻译应用的持续监听模式下,Gemini会自动将多种语言的语音翻译为单一目标语言,使得用户可以戴上耳机,用母语聆听外语演讲、讲座或者电影;而在双向对话模式下,用户仍能从耳机中听到实时翻译,同时在说话后依靠手机播报对方的语言
这项新功能还能保留每位说话者的语气、重音和语速,因此更容易跟上对话并分辨是谁在说话。该功能本质上是将任何一副耳机变成一个实时的单向翻译设备,如果对话者都戴上耳机,就能实现双向AI同声传译。
据悉,Gemini模型能够实现超过70种语言和2000个语言对的语音翻译,包括英语、中文(普通话)、西班牙语、德语等主要语言的互译。该功能支持自动识别语言,所以即便不知道对方是哪国人也能实时启动翻译。

(来源:谷歌演示)
谷歌介绍称,该测试版功能从周五开始向美国、墨西哥和印度的所有安卓设备推送。该功能也将在2026年进入苹果iOS生态以及更多的国家和地区。
AI助力精确翻译
谷歌也将Gemini能力引入了文本翻译应用,使得文本翻译更智能、自然和准确,特别是能改进俚语、习语或本地化表达的翻译效果。
该应用目前已经在美国和印度推出,已在安卓、iOS和网页版的翻译应用中提供,支持在英语和近20种语言之间互相翻译,包括西班牙语、阿拉伯语、中文、日语和德语。
另外,谷歌也扩展了语言学习工具的覆盖范围。英语用户现在可以学习德语和葡萄牙语,而中文(普通话)、德语、意大利语用户可以学习英语。谷歌也在改进反馈功能,让用户在练习口语后获得更有用的建议。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
天人地
在线天人地

UID: 1627269

精华: 2
级别: 上清仙尊

发帖
296104
金币
27556
道行
40006
原创
108
奖券
147
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 36670(小时)
注册时间: 2012-09-03
最后登录: 2025-12-13
只看该作者 沙发  发表于: 4小时前
谷歌于2025年12月13日正式推出AI语音同声传译功能,将最先进的Gemini翻译能力引入翻译应用。该功能支持自动识别语言,无需预设对方语种,即便不知道对方是哪国人也能实时启动翻译。

核心功能特点:

双向对话模式:用户佩戴耳机可实时聆听对方语言的翻译(母语),说话后手机会播报对方语言,实现双向实时翻译;若对话者都戴耳机,可直接实现双向AI同声传译。
保留语音特征:能保留每位说话者的语气、重音和语速,便于跟上对话并分辨说话人。
多场景适配:持续监听模式下,可将外语演讲、讲座或电影实时翻译为母语,通过耳机聆听。
语言覆盖广:支持超过70种语言、2000个语言对的语音互译(包括英语、中文普通话、西班牙语、德语等主要语言)。
设备要求低:不限制特定耳机或设备,安卓设备(美国、墨西哥、印度)已推送测试版,2026年将支持iOS系统及更多国家地区。
此外,该功能还大幅提升了文字翻译的自然度与地道性,避免逐字直译,进一步优化了跨语言沟通体验。
如何不发帖就快速得到金币道行
 
天人地
在线jjybzxw

UID: 551814


发帖
210518
金币
601053
道行
2006
原创
2438
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 46245(小时)
注册时间: 2008-10-01
最后登录: 2025-12-13
只看该作者 板凳  发表于: 4小时前
谷歌Gemini通过深度融合其先进的多模态大语言模型能力,显著提升了耳机中的AI同声传译(AI同传)和文字翻译的准确性、实时性与自然度。以下从核心技术赋能、交互体验优化、场景适应增强、系统协同升级、未来潜力拓展五个维度,深入解析Gemini如何推动智能耳机翻译能力的全面进化:

---

一、依托Gemini大模型实现语义级翻译,突破传统翻译局限

传统的语音翻译系统多依赖于“语音识别 → 文本翻译 → 语音合成”的流水线模式,各模块独立运行,容易导致语义失真、上下文断裂。而Gemini作为原生支持文本、音频、图像等多模态输入的统一模型,能够:

- 实现端到端语义理解与翻译:Gemini可直接将源语言语音输入映射为目标语言语音输出,中间无需显式解码为文本,减少了信息损失,尤其适合口语化、碎片化表达的实时对话场景。
- 上下文感知更强:Gemini具备长上下文理解能力(支持数十万token),可在连续对话中记住前文内容,准确处理代词指代、省略句、文化隐喻等问题,使翻译结果更符合真实语境。
- 语用层面优化:不仅能翻译字面意思,还能根据说话人语气、身份、场合调整措辞风格(如正式/非正式、礼貌程度),让跨语言交流更自然得体。

> *例如,在商务谈判场景中,Gemini能识别“这价格有点高啊”并非单纯陈述,而是议价信号,并在翻译时转化为“Could we consider a more competitive price?”而非直译为“The price is a bit high.”*

---

二、融合语音与语言模型,提升同传实时性与鲁棒性

Gemini并非孤立存在,而是与谷歌自研的Speech-to-Text(如SpeechLM)、Text-to-Speech(如Expressive TTS) 系统深度集成,形成闭环增强:

- 联合训练优化延迟:Gemini与语音模块共享部分神经网络结构,实现联合训练,减少模块间接口延迟,提升整体响应速度至毫秒级,逼近“即时同传”体验。
- 抗噪与口音适应能力强:借助Gemini对全球语言变体的学习(涵盖方言、口音、语速变化),配合前端语音增强技术,即使在嘈杂环境或用户发音不标准时,也能保持高识别与翻译准确率。
- 低资源语言支持扩展:Gemini通过迁移学习与少样本推理能力,可有效服务此前缺乏足够训练数据的小语种(如冰岛语、斯瓦希里语),拓宽耳机的国际化适用范围。

---

三、多模态感知加持,打造情境智能翻译体验

未来搭载Gemini的智能耳机或将结合其他传感器数据,实现“情境感知型翻译”:

- 视觉辅助理解:若耳机连接AR眼镜或手机摄像头,Gemini可分析画面内容(如菜单、路牌、产品标签),自动触发相关领域的术语翻译,提升专业词汇准确率。
- 情感识别调节语气:通过分析语音频谱特征,判断说话者情绪(愤怒、喜悦、疑惑),并在目标语言输出中匹配相应语调,避免因语气错位引发误解。
- 个性化翻译偏好记忆:Gemini可根据用户历史选择(如偏爱简洁表达、特定术语习惯)持续学习,提供定制化翻译风格,实现“越用越懂你”。

---

四、边缘-云端协同架构,保障性能与隐私平衡

为满足耳机设备对功耗、延迟与隐私的要求,Gemini采用混合计算架构:

- 关键任务本地化处理:基础语音识别与短句翻译可在设备端运行轻量化Gemini Nano模型,确保无网环境下基本功能可用,同时保护敏感对话不上传云端。
- 复杂场景调用云端超大规模模型:涉及长篇演讲、专业领域(医学、法律)、多轮谈判等复杂任务时,自动切换至云端Gemini Ultra,调用更强算力完成精准翻译。
- 差分隐私与联邦学习机制:用户数据经脱敏处理后用于模型迭代优化,既提升整体服务质量,又保障个体隐私安全。

---

五、重新定义人机协作范式,开启“无感翻译”新时代

Gemini的引入不仅是技术升级,更是交互理念的革新:

- 从“工具使用”到“无缝沟通”:用户不再需要手动点击“开始翻译”,系统可智能检测双语对话切换,自动启动同传模式,真正实现“像母语一样交流”。
- 支持多方言混合对话:多人围谈中夹杂普通话、粤语、英语时,Gemini可动态分辨语种并分别翻译,适用于国际家庭、跨国会议等复杂社交场景。
- 教育与文化桥梁功能延伸:除实用翻译外,还可实时解释文化背景、成语典故、幽默双关,帮助用户不仅“听懂”,更能“理解”异国文化。

---

结语:Gemini不止是翻译引擎,更是跨语言认知中枢

谷歌Gemini正在将智能耳机从“语音放大器”转变为“跨语言认知助手”。它所赋予的不仅是语言转换能力,更是一种打破沟通壁垒、重塑全球化人际互动方式的深层变革。随着Gemini持续进化并与硬件深度耦合,未来的AI同传将不再是“机器翻译+耳机播放”,而是一场真正意义上的多模态、情境化、人格化的跨语言对话重建。这标志着我们正迈向一个“语言平权”的新时代——每个人都能以自己的母语,自由地参与世界对话。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个