将中文语音识别率提升至96.29%, 依图科技跨领域推出语音开放平台

错误信息

Deprecated function: Array and string offset access syntax with curly braces is deprecated in include_once() (line 20 of /home/webadmin/yitu0930/includes/file.phar.inc).

将中文语音识别率提升至96.29%, 依图科技跨领域推出语音开放平台

2018-12-11

计算机视觉（CV)是AI领域一大吸金赛道，也由此产生了商汤、云从、依图、旷视这样的“图像四小龙”。而这四小龙之一的「依图科技」却率先拓宽边界，踏入语音和自然语言处理（NLP)行业。

12月11日，依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台。

其实早在2016年，当计算机视觉公司刚开始吸引投资人注意时，语音识别就开始规模化场景落地。现如今，百度、腾讯、京东、小米纷纷发布智能音箱，各种手机搭载语音交互，智能翻译工具、智能客服等语音类产品层出不穷。

那么，相比同类产品，依图语音技术的比较优势和市场空间会在哪里？在未来产品化落地上，依图会有怎样的规划？围绕这些问题，36氪独家专访了依图科技首席创新官，前Google Research Scientist吕昊博士。

36氪首发 | 将中文语音识别率提升至96.29%, 依图科技跨领域推出语音开放平台

依图科技首席创新官吕昊博士

确实，这个时间点进入语音行业挑战重重，一则先发优势不再，二则市场拥挤，科大讯飞、BAT大厂纷纷入局，从技术上升到平台生态，市场空间看似余地不多。

对此，吕昊表示：依图团队对国内现有的语音识别技术都做了调研，发现在不少场景下，语音识别效果并不理想，例如通话过程中的声音转写准确率低、远距离的声音采集识别效果差、语料数据积累不足等。因此，依图会从这些可优化空间入手，对模型算法进行打磨，提升识别率，降低字错率。

在语音识别领域，15%的字错率是一条红线，超过则基本不具备可读性，而低于3%则是可以被认为具备类人的语音识别能力。然而，在实际说话过程中，人的语速、语气、口音、语态等都会影响识别准确度。此外，不同于英文，中文复杂的语言元素，以及同音不同意等问题为语音识别带来了更大的挑战。那么依图如何应对呢？

吕昊告诉36氪：当前业内缺乏系统性的标准测试和测试集，对于语音识别缺乏体验和比较的工具，为提升识别准确率，依图团队搜集了大量真实对话数据，以及专业类、生活类的细分语料库，基于此，依图提出了自己多维度、多场景的测试数据集，由此来对模型算法进行训练和测试。

据悉，在基于全球最大中文开源数据库的AISHELL-2的测试中，依图短语音听写的字错率为3.71%，官方称领先原业内领先者科大讯飞约20%。在若干近场、混响、噪声等公开测试集上，依图平均字错率 6.39%，领先讯飞 11%。加入电话、口音、语音节目、远场演讲等依图内部暂无法公开的测试集后（全部测试集共 50小时、60万汉字），依图平均字错率 8.27%，讯飞是9.30%，依图仍然领先讯飞 11% 左右。

36氪首发 | 将中文语音识别率提升至96.29%, 依图科技跨领域推出语音开放平台

基于不同数据测试集上，依图语音识别技术的准确率表现

其实，如果想实现真正意义上的语音交互，语音只是一部分，更重要的则是对语义的理解。如果我们把语音技术比作人的嘴巴和耳朵，用于表达和获取；那么语义理解则是人的大脑，能够帮助信息处理和解析。在语义理解方面，依图同样在进行技术积累。

吕昊表示：虽然此次是从语音切入，但是团队一直是语音、语义两线并行。2017年时，依图就曾将自然语言处理（NLP)技术用于AI+医疗解决方案，结合自建的临床中文知识图谱，对医学文本等多模态数据进行解析和信息提取。今年，依图的论文更入选NLP顶会EMNLP 2018，针对计算机语言学核心问题之一的指代理解提出全新数据集PreCo并对外开放。

此前，在视觉领域，依图已经在智慧城市、医疗、金融、零售等领域有了产品化、商业化积累。对于是否会将语音技术迁移于这些领域，吕昊回应：这一阶段仍旧以技术积累为主，依图在开放平台上提供了自有的API和模型算法，一方面可以经由市场验证算法质量，另一方面可以由此接近不同行业和场景。

据官方信息，依图与微软联合发布的语音开放平台基于Azure Cloud，将依图的语音识别技术能力开放给广泛第三方应用开发者使用。

在未来，依图计划陆续开放长语音转写API、实时语音转写API等。正如吕昊所说：希望为第三方应用开发者在语音领域提供多一个语音技术选择。

笔者认为：结合自有的CV技术积累，依图或许可在多模态情感识别和计算领域发力，融合视觉、语音等多重数据，全方位提升机器的感知能力。在商业化层面，虽然当下的依图语音技术开放平台仍旧以技术积累为重心，但依托CV积累的的B端用户，为企业级客户提供语音解决方案只是时间早晚问题。

————

您可以复制这个链接分享给其他人：https://www.yitutech.com/node/414