突破语音技术难题网易云商论文入选国际语音会议ASRU-盘古源码网

“小爱同学，明天早上7点叫我起床”

“小度小度，来点轻松的音乐吧”

“天猫精灵，播放适合5岁孩子的故事”

大家熟悉的这些智能家居产品，背后都有语音技术的身影。

作为人工智能技术中的一个重要分支，语音技术让计算机能够理解和生成人类的语音，实现与人类自然、流畅、高效的交互，旗下有语音识别（ASR）、语义理解（NLP）、语音合成（TTS）等多个子类别，在智能客服、智能教育、智能家居、车联网等多个场景中展现出巨大的价值和潜力。

近期，专注于探讨语音技术热点难点问题的国际顶级语音会议 ASRU2023 公布论文入选结果，网易云商关于“加速CTC语音识别模型推理”的论文被大会录用，展现了网易云商突破技术难题的决心和实力。

[MD:Title]

据悉，ASRU研讨会是IEEE语音和语言处理技术委员会（SLTC）的旗舰技术活动，每两年举办一次，汇集了来自学术界和工业界的顶级专家和研究人员，共同探讨广泛的语音识别与理解问题，是语音与语言处理学术圈的顶会。

在这样一个极具影响力的技术顶会中脱颖而出，网易云商的这篇论文有何独特之处？解决了什么关键问题？让我们来一探究竟。

“目前主流的 ASR 模型都需要很大的 Encoder（编码器）来对语音序列信号进行建模，这在提升识别准确率的同时，也带来了极大的计算量。我们在论文中提出了一种新的语音识别模型推理方案，把 CTC（Connectionist Temporal Classification，一种序列建模算法，用于在语音识别，手写识别和其他序列问题中训练深度神经网络的算法）引入到编码模块，根据 CTC 的输出概率动态调整编码过程”，论文作者侯同学介绍了论文的研究背景和方向。

看到这里，你可能觉得有点深奥。让小编用大白话来“翻译”一下。

语音识别的整个过程，简单粗暴可以分为四步：语音输入——编码——解码——输出。拿我们熟悉的微信语音转文字场景为例，输入一段语音，先要经过编码（将原始语音信号转换为数字表示，以便计算机可以对其进行处理和分析），然后进行解码（将数字表示的语音信号转换为模拟语音信号），最后输出文字结果。

[MD:Title]

在编码环节，为了将原始的语音信号转换为代码，需要借助 Encoder 进行建模和识别。以一句“你好”为例，短短的两个汉字，对应的序列长度就有近200帧（语音中一帧一般为20-50毫秒），这个过程带来了庞大的计算量和部署成本。

针对困扰行业的此问题，网易云商AI技术组开展深入研究。先通过使用 CTC 来标识每一帧是否是空白帧，随后，逐帧动态决定 Encoder 的层数，对于空白帧仅使用 Encoder 的一部分层建模，其他关键帧则使用整个 Encoder 建模。

用一种更灵活的方式，更简化的模型，加速了模型推理速度，降低了计算量和部署成本。实验结果表明，网易云商提出的这种方式，可以在保证识别效果基本不变的情况下，将模型的推理速度提升29%。这大大提升了 ASR 服务的性价比。

多年来，网易云商一直在AI语音技术领域不断探索，深入研究，并应用在网易云商旗下智能外呼、智能质检、呼叫中心、呼入机器人、坐席辅助等产品中，为企业用户带去高性价比、高效率、有温度的智能语音解决方案，在服务和营销场景大放异彩。

[MD:Title]

某主打国战玩法的魔幻题材 MMORPG 手游，公测至今已经 5 年，游戏运营团队主要采用常规的短信方式进行流失召回，单用户平均回流成本通常在 11-13 元左右。现在，他们希望找到成本更低、效率更高的方式。

运营团队选取了流失 4 年内的付费用户，以新服回归活动（送代币、坐骑、时装、抽取法宝）为利益点，采用网易云商提供的智能外呼方案进行大批量的召回，最终回流率达到 7.8%，单用户平均回流成本仅 2.8 元，流召活动整体 ROI 达到 15 倍。

语音技术在日常生活和生产应用中扮演着越来越重要的角色，网易云商将持续探索，攻坚克难，加速AI创新。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：

突破语音技术难题网易云商论文入选国际语音会议ASRU

最新文章：

热门浏览

popular

标签列表

tags

推荐文章

popular