中国质量新闻网
您当前位置: 新闻中心>>品牌>>品牌风采>>

全力以赴答好每一道判断题——小米公司“小爱语音唤醒专项”背后的质量故事

2022-12-21 11:27:39 中国质量报

全力以赴答好每一道判断题

——小米公司“小爱语音唤醒专项”背后的质量故事

□ 本报记者 彭 燮

“小爱同学”“在”……每一天,这样看似简单的对话会在地球各个角落重复1亿次以上。作为小米公司依托强大生态链条打造的智能语音交互系统,“小爱同学”已成为国内最“忙”的智能语音助手,是亿万用户智能生活中不可或缺的一部分。

“在我们看来,唤醒‘小爱同学’相当于进门的‘门禁’。门禁不好用,大家想进也进不来。”小米集团“小爱语音唤醒专项”算法产品经理王玲玲介绍说,她所在的团队成立于2020年,拥有来自算法、硬件、测试等多个部门数十名工程师的“豪华阵容”,大家的目标就是要让“门禁”更好用,让小米语音交互的用户体验再上一个新台阶。

判断题一:是不是非要自己做算法

王玲玲告诉记者,如果说语音识别是关于语意和语气的“理解题”,那么语音唤醒就是一道针对语音的“判断题”。但是,想要答好“小爱同学”这道“4个字的判断题”,尽可能避免“唤不醒”和“误唤醒”,难度很大。

2020年,小米智能产品的三大端(手机、电视、音箱)都采用了头部供应商的唤醒算法,也代表着业内的主流水平。但从用户端反馈来看,大家对于包括小米在内的各家品牌智能产品的语音唤醒并不满意,“喊了半天没反应,没喊了反倒冷不丁答应一声”类似的用户吐槽比比皆是。

把算法改进的任务交给供应商,还有一个潜在的悖论——出于保护用户隐私的考虑,小米不可能把用户数据交给第三方,但是没有用户数据的反馈,供应商也很难开展针对性的改进。

其实,小米早在几年前就开始着手自研语音唤醒算法,但几年下来成绩也并不太理想,和供应商算法相比没有明显优势。一方面,唤醒词“小爱同学”的“爱”字没有声母,容易连读吞字,“同学”则属于生活常用词,容易造成误唤醒;另一方面语音唤醒对底层硬件依赖度很高,技术改进需要融合传统音频降噪和深度学习算法,非常复杂。而对于用户来说,相比语音识别,大家对于唤醒的成功预期更高,容忍度更低,这也给技术改进带来了非常大的压力。

以误唤醒为例,按照小米制定的测试标准,一天24小时误唤醒次数不多于两次,相当于86400秒里最多允许算法出现4秒错误,对算法精度的要求可想而知。

是不是非要做自研算法?这道判断题在项目组成员们的脑海中盘旋了很久,最终大家给出了答案——是!

据算法团队负责人高鹏博士介绍,项目组通过给现有数据加混响、加噪声、变调、调整音量等策略,将训练数据扩充到20倍以上;采用了TDNN-F算法;通过模型结构的优化,提升唤醒性能;通过大量实验,提高模型学习能力,最终达到明显的优化效果。

为了解决“闲聊唤醒”等问题,项目组还开展了儿童唤醒、句中唤醒抑制等专项改进,从而降低误唤醒发生几率。

据统计, 目前,手机、音箱、电视三大端的“小爱同学”唤醒体验都有了明显提升。以手机为例,唤醒投诉率降低了79%,误唤醒率降低到了1%以下。

判断题二:有必要每条用户反馈都跟进吗

用户反馈是小米质量改进的最大遵循。可对于“小爱语音唤醒专项”来说,收集用户反馈本身就挺困难。

相比误唤醒,难唤醒(漏召)相当于机器自动判定为“否”,因此没有本地数据,在监测上更为困难,这也是业内公认的难题之一。

明明是用户的痛点,又是现有数据的盲点,怎么办?团队跳出数据监控的惯性思维,设立了唤醒PPM(每百万用户投诉量)指标,对小米公司所有用户反馈渠道的相关信息进行了梳理和验证,挖掘唤不醒相关反馈,并对其进行有针对性的分析和改进。

今年3月,米粉“YK3372”通过小米手机“用户与反馈”提交了“行车状态下,手机‘小爱同学’无法被唤醒”的问题,这也是小米迄今为止收到的唯一一条行车场景下唤不醒的反馈。

很快,小米语音唤醒用户工程师任栩联系到了“YK3372”,请他帮忙试着复现问题,并组织相关工程师一起讨论问题出在哪里。面对大量的用户日志,工程师进行了仔细的筛选和排查。

从怀疑麦克风收音有问题到怀疑输入音频有问题,经过一天多的排查,任栩终于发现了问题所在——语音唤醒模块在处理音频时,由于声纹识别比算法处理速度快,提前截断了唤醒词音频,导致只识别了“小爱同”,因此无法唤醒。任栩还记得,深夜加班找到原因之后自己那种激动的心情,“感觉终于可以给米粉,给其他同学一个交代了”。

随后,工程师们针对这一情况改写了判断策略,并升级了版本。软件升级后,无论是开车还是其他场景,“YK3372”再也没有遇到过类似的问题。随叫随到的“小爱同学”成为了他越来越离不开的生活助手。而小米则为此成立了技术攻关小组,继续探寻声纹识别速度异常波动的深层次原因。

对问题日志创新研发自动化标注,对渠道反馈内容进行一对一细化排查和深度跟踪处理……实践证明,这种主动找问题、挖线索的工作思路是切实有效的。从数据看,目前小米各个渠道关于语音唤醒的投诉反馈数量已经下降60%左右。

选择题三:有没有必要挑战极限

两年多来,“小爱语音唤醒专项”以极大的勇气在算法、软件、测试、标准、硬软件适配等多个领域进行了突破性改进,并采用先标杆后复制的聚焦打法,从旗舰单品到全面铺开,最终实现了用户体验明显优化、相关投诉大幅降低的超预期成果。

2021年8月发布的小米首款高端智能音箱——Xiaomi Sound,就是小爱语音唤醒改进的“旗舰单品”之一,也是工程师们“挑战极限”的里程碑之作。

这款音箱外观设计圆润时尚,很有特色,但从收音角度来说,“就等于你把一个人的耳朵捂得严严实实的,还要求他听得特别清楚。”高鹏如是说。

为了确保收音质量,高鹏和团队通过实验室的测试数据,去反向推导改进声音结构设计,以提升收音的质量和精准度,然后再通过实验室去验证改进是否达到效果。

一般来说,智能音箱的收音质量测试环节大概需要7天时间,而Xiaomi Sound音箱的收音质量测试,整整用了两个月。这对于“跑”着出新品的小米来说,实在是很奢侈的一件事情,足以说明Xiaomi Sound音箱的研发难度之大。“这个特别的外观设计,必须要匹配极致的声音结构设计,否则就没办法向米粉交代,我们也只能拼了。”

Xiaomi Sound音箱采用了业内最先进的混合算力芯片,涉及4家供应商,等于每一次算法的调整,都需要经历4次“不同语言”的考验。高鹏说,如果以10分为难度最高,小米以往的智能音响的芯片适配难度大概是5,而Xiaomi Sound音箱能达到9。

在保证适配的同时,高鹏还带领团队在算法上做了改进,将整体采样率和精度都做到最大值,从业内普遍采用的16k采样、16比特精度提升为48k采样、32比特精度,以更高的精度和更好的信号质量,来保证算法数据的精准度。

星光不负赶路人。承载着小爱团队心血和汗水的Xiaomi Sound音响一上市就广受好评,更让高鹏和小伙伴们惊喜的是,Xiaomi Sound音响在语音交互方面的各项指标竟然是现有小米智能音箱中表现最为突出的,达到了自研算法的最好水平,相关的用户投诉率也是最低的。

把“不可能完成的任务”变成了“最佳表现”,这背后的故事令人心潮澎湃,更让人心生敬意。正是小米工程师们的永不放弃和执着追求,才诞生了一个个极致的产品,成就了米粉们的骄傲。

《中国质量报》

(责任编辑:水川)
最新评论
声明:

本网注明“来源:中国质量新闻网”的所有作品,版权均属于中国质量新闻网,未经本网授权不得转载、摘编或利用其他方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:中国质量新闻网”。违反上述声明者,本网将追究其相关法律责任。若需转载本网稿件,请致电:010-84648459。

本网注明“来源:XXX(非中国质量新闻网)”的作品,均转载自其他媒体,转载目的在于传递更多信息,不代表本网观点。文章内容仅供参考。如因作品内容、版权和其他问题需要同本网联系的,请直接点击《新闻稿件修改申请表》表格填写修改内容(所有选项均为必填),然后发邮件至 lxwm@cqn.com.cn,以便本网尽快处理。

图片新闻
  • 查获假“大力神杯”492个

  • 新泰市羊流镇:发展特色养殖 助力百 ...

  • 江西省新余市渝水区市场监管局积极开 ...

  • 贵州万山:村村有特色 致富路子多

  • 六水共治丨东方:整治水产养殖尾水 ...

最新新闻
Baidu
map