年关将至,点开任何一个社交平台,主流的喧闹之外,你都可以看见那些被各种理由困住回家脚步的人。衣锦还乡是不少人的执念,这份执念也成为了他们回家的羁绊。
老家的父母接到去异地开店的儿子电话,与他们想的不一样,烧烤店红火了一段时间,现在已经经营不下去了;“小赵”也给父母拨去了电话,今年过年只有她一个人回来……
事业遇阻、离异……是他们害怕回家的心结,而电话那头的回音是“等你回家。”
这是近日,京东云联合Intel、三联生活实验室在春节前做的一次暖心实验,依托京东云言犀大模型和言犀智能外呼产品,帮助那些害怕回家的人拨开云雾,看到那些心结背后的真实答案。
教机器说话像真人,言犀用了什么“魔法”
智能外呼拨出的电话,不仅能听懂顾客方言、理解口语化表达,还能判断出客户情绪给出针对性反馈。这样“神奇”的对话能力,来自背后的一系列语音技术。
智能外呼有几项关键任务:听懂对方在说什么(ASR语音识别技术),做出正确的回应(NLP自然语言处理),用声音回复对方(TTS语音合成技术)。
其中,TTS负责合成有感情、有温度、自然流畅的声音。TTS合成声音的流水线,又分为文本处理-声学模型-声码器三部分。声学模型把文字变成声音频谱,声码器则将声音频谱变成真正的声音。
声学模型作为语音合成的“发动机”,始终在进化。最原始的方法是针对所有话术采集声音,再拼接起来。这样不仅工作量大,拼接效果也不自然。后来神经网络兴起,能够生成没采集过的声音,并与录音部分保持音色一致。言犀团队使用的声学模型,也从自回归模型转向非自回归,推理更加稳定。
到如今,言犀团队使用主流的freespeech2模型,训练和合成语音的速度更快,音质也超过所有自回归模型。Transformer架构兴起后,言犀团队还在开发声音模态的大模型,即将上线。
声学模型已经能完美复刻真人的音色,做到生成语音与录音的无缝拼接。但对于音色以外的副语言,比如语速、语调、重音、倒吸气等,声学模型则无法还原。这些副语言正是声音表达情绪、听起来像真人说话的关键要素。没有了副语言,声音就会过于“正确”、听起来冰冷而僵硬。
模仿这些副语言的技术被称为“风格迁移”。对于风格迁移,言犀团队拆解成两个层面:在文本层面,添加口头语,类似“比如说”、“然后”等连接词。因为真人说话需要时间思考,这些口头语让外呼机器人更像真人。在语音层面,则将重音、语调变化等拆解成音素的细颗粒度,用无监督模型来学习它们的组合规律。
这些副语言在声音中分布稀疏,采用隐式建模的方法无法捕捉到规律。而将声音拆解为音素后,声音模型则可以捕捉到语调、重音等特征,更好还原出真人说话的副语言风格。
风格迁移解决了“说得像”的问题,但机器还要知道什么时候说。VAD(语言端点检测)能够简单判断对方是否在说话。但真人说到一半会停下来思考,并没有说完。有时在倾听时说“嗯”“好的”仅表示附和,并非要接话。有时人们还会打磕巴、重复发言,或是省略说话内容。
对于这种复杂的对话决策,言犀团队开发出一套多模态话语决策模型:既通过NLP(自然语言处理)判断对方语义是否完整,也通过ASR(语音识别)捕捉语调和语气的变化,综合判断何时开始发言。
这些技术综合起来,实现了堪比真人的语音交互能力。如果外呼语音听着像机器,顾客往往会马上挂断。只有听起来像真人,对方才会继续倾听甚至交流,让外呼语音有机会说出业务内容。在技术层面完善后,言犀智能外呼也迎来了业务的检验。
“听得懂”又“说得好”,获客增长有了新“技术红利”
李女士不久前接到京东的电话,“过了腊八就是年,京东年货节今晚8点开启……林海雪原的山珍,西北的牛羊,中原的面食,东南的鲜味”,电话那头“舌尖美食感召力”十足,李女士一下就听出来这让人无比熟悉、感到“垂涎”的声线来自著名配音表演艺术家李立宏。“李老师和我拜年,我也和他讲了讲我们四川自贡过年的食俗”。
这通电话正是由京东云言犀技术支持的智能外呼,据悉这个智能外呼项目已为京东年货节提升到站率56%,下单转化率增幅达51%(对比未接通用户),“品牌营销已经这么智能了吗?”李女士发帖感叹这次电话“奇遇”。
京东云言犀智能外呼服务,它既能做到真人般的对话体验,还能提供有温度的情感连接,已成为品牌商家营销增长、维系客户关系的有力帮手。
在2018年研发智能外呼之初,言犀团队负责人就提出:“要做有温度、有感情的智能服务。”这些有温度的声音,也成为品牌商家营销增长和维系客群的有效工具。
言犀的语音风格迁移能力,让智能外呼能“说得好”业务诉求,也能“听得懂”客户心声。在“说得好”方面,传统的通知型外呼声音柔和、语气平稳。但营销外呼和数字人主播需要声音情绪饱满、抑扬顿挫。言犀从源头采集了头部主播和金牌销售的说话方式,训练模型,并跟商家反复实验,最终复刻了他们的韵律和声调。
目前,言犀团队已经形成完整的“声音供应链”:从开始供应声音最基础的元素上就进行规范,制定标准,用技术进行相应的适配。后续训练出声音后,与商家多次沟通、评估外呼和直播效果,持续迭代声音。最终生成的语音服务,就能在零售、金融、政务等多个场景都具备感染力。
在“听得懂”方面,言犀ASR语音识别技术能够识别不同的语气,并给出不同话术。顾客同样说“我知道了”,如果重音落在“知”上,语调先升后降,可能说明客户已经不耐烦,需要推出安抚话术。如果顾客的重音不明显、语调平缓,外呼机器人就会继续讲解业务逻辑。这种“听得懂”的能力,极大程度降低因无效沟通带来的挂断率。
任何技术要走向实际应用,都少不了“吃自己狗粮”的打磨。而京东正拥有极其广泛的业务场景,能够让智能外呼持续进化。在京东物流,智能外呼就提供预约配送、服务回访、异常通知等40多个场景的服务,覆盖超过130个品类。在高峰期,智能外呼每天的呼出量超过100万通,对话识别率高达98%,服务满意度达到96%。
在打磨顺滑后,言犀智能外呼走向外场,成为品牌商家营销获客的利器。伊利发布碳酸乳饮新品“乳汽PET”时,就采用智能外呼定制了明星代言人“时代少年团”的声音。在10余天的首发活动中,智能外呼呼出16.7万人次,首天就带动伊利小程序渠道售出超过6万瓶饮料,ROI超过4.0。
舍得就业发布新品时,对比未外呼人群:使用外呼后,客户付费转化率提升了468%。京东生鲜的大闸蟹品类,接入智能外呼后ROI达到159.3。
归根结底,智能外呼服务是技术发展带来的“获客增长红利”。在流量昂贵的今天,智能外呼能够精准、主动地触达用户,并且只需要付出语音外呼的低廉成本。不断突破的技术,让这种红利的诞生成为可能。相比千人一面的文案和图像,在2024年开年,更有情绪和温度的智能外呼不仅为更多品牌和企业创造了价值,也给大量消费者带来温暖和亲切的体验,让AI技术的广泛应用掀开了大幕的一角。