切换到宽版
  • 380阅读
  • 2回复

[智能应用]苹果研究破解 AI“英语口音”难题,提升多语言自然性 [复制链接]

上一主题 下一主题
离线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君
 

发帖
165308
金币
471244
道行
20030
原创
766
奖券
350
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20220(小时)
注册时间: 2012-06-21
最后登录: 2025-12-16
用户被禁言,该主题自动屏蔽!
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
离线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖
165308
金币
471244
道行
20030
原创
766
奖券
350
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20220(小时)
注册时间: 2012-06-21
最后登录: 2025-12-16
只看该作者 沙发  发表于: 05-17
用户被禁言,该主题自动屏蔽!
如何不发帖就快速得到金币道行
 
在线jjybzxw

UID: 551814


发帖
211678
金币
609520
道行
2006
原创
2438
奖券
3260
斑龄
41
道券
1197
获奖
0
座驾
设备
摄影级
在线时间: 46392(小时)
注册时间: 2008-10-01
最后登录: 2025-12-17
只看该作者 板凳  发表于: 05-17
  针对大语言模型存在的“英语思维定式”问题,研究人员确实进行了深入研究,并提出了创新的解决方案。这些问题主要表现在非英语语种输出中普遍存在的语法与词汇偏差上。通过覆盖中文、法语、英语(基于维基百科)的语料测试,研究人员发现即使是专为中文优化的Qwen模型,在母语(中文)的表现上仍然落后于人类水平。Meta的Llama3.1模型虽然综合表现最佳,但在输出自然度上仍有显著差距。所有模型在非英语输出中均残留有英语语法结构,这意味着即使模型在使用中文或法语进行对话时,它们实际上仍在用英语进行“思考”,并且非英语输出遵循类似英语的语法和词汇模式。

  为了解决这些问题,研究团队提出了两项量化指标:

  1. 词汇自然性(Lexical Naturalness):这个指标用于评估大语言模型(LLM)使用的词汇是否符合母语习惯,即是否自然地融入了目标语言的文化和语境中。

  2. 句法自然性(Syntactic Naturalness):这个指标用于检验大语言模型生成的语句是否贴合本土语法,即是否遵循目标语言的语法规则。

  为了缩小模型输出与人类自然语言之间的差距,研究人员采用了“回译法”来自动生成训练样本。这种方法涉及将人工撰写的流畅中文内容先翻译成英文,然后再逆向翻译回中文,从而产生带有“翻译腔”的“反面”样本。通过对比这些样本和流畅的原文本,模型可以在训练中学习如何加强自然表达能力。这样的训练方法有助于在保持基准性能的同时,显著改善模型的语言输出质量,使其更贴近人类的自然语言习惯。

如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个