计算机视觉(CV)是AI领域一大吸金赛道,也由此产生了商汤、云从、依图、旷视这样的“图像四小龙”。而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然语言处理(NLP)行业。

12月11日,依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台。

其实早在2016年,当计算机视觉公司刚开始吸引投资人注意时,语音识别就开始规模化场景落地。现如今,百度、腾讯、京东、小米纷纷发布智能音箱,各种手机搭载语音交互,智能翻译工具、智能客服等语音类产品层出不穷。

那么,相比同类产品,依图语音技术的比较优势和市场空间会在哪里?在未来产品化落地上,依图会有怎样的规划?围绕这些问题,36氪独家专访了依图科技首席创新官,前Google Research Scientist吕昊博士。

36氪首发 | 将中文语音识别率提升至96.29%, 依图科技跨领域推出语音开放平台

依图科技首席创新官吕昊博士

确实,这个时间点进入语音行业挑战重重,一则先发优势不再,二则市场拥挤,科大讯飞、BAT大厂纷纷入局,从技术上升到平台生态,市场空间看似余地不多。

对此,吕昊表示:依图团队对国内现有的语音识别技术都做了调研,发现在不少场景下,语音识别效果并不理想,例如通话过程中的声音转写准确率低、远距离的声音采集识别效果差、语料数据积累不足等。因此,依图会从这些可优化空间入手,对模型算法进行打磨,提升识别率,降低字错率。

在语音识别领域,15%的字错率是一条红线,超过则基本不具备可读性,而低于3%则是可以被认为具备类人的语音识别能力。然而,在实际说话过程中,人的语速、语气、口音、语态等都会影响识别准确度。此外,不同于英文,中文复杂的语言元素,以及同音不同意等问题为语音识别带来了更大的挑战。那么依图如何应对呢?

吕昊告诉36氪:当前业内缺乏系统性的标准测试和测试集,对于语音识别缺乏体验和比较的工具,为提升识别准确率,依图团队搜集了大量真实对话数据,以及专业类、生活类的细分语料库,基于此,依图提出了自己多维度、多场景的测试数据集,由此来对模型算法进行训练和测试。

据悉,在基于全球最大中文开源数据库的AISHELL-2的测试中,依图短语音听写的字错率为3.71%,官方称领先原业内领先者科大讯飞约20%。在若干近场、混响、噪声等公开测试集上,依图平均字错率 6.39%,领先讯飞 11%。加入电话、口音、语音节目、远场演讲等依图内部暂无法公开的测试集后(全部测试集共 50小时、60万汉字),依图平均字错率 8.27%,讯飞是9.30%,依图仍然领先讯飞 11% 左右。

36氪首发 | 将中文语音识别率提升至96.29%, 依图科技跨领域推出语音开放平台

基于不同数据测试集上,依图语音识别技术的准确率表现

其实,如果想实现真正意义上的语音交互,语音只是一部分,更重要的则是对语义的理解。如果我们把语音技术比作人的嘴巴和耳朵,用于表达和获取;那么语义理解则是人的大脑,能够帮助信息处理和解析。在语义理解方面,依图同样在进行技术积累。

吕昊表示:虽然此次是从语音切入,但是团队一直是语音、语义两线并行。2017年时,依图就曾将自然语言处理(NLP)技术用于AI+医疗解决方案,结合自建的临床中文知识图谱,对医学文本等多模态数据进行解析和信息提取。今年,依图的论文更入选NLP顶会EMNLP 2018,针对计算机语言学核心问题之一的指代理解提出全新数据集PreCo并对外开放。

此前,在视觉领域,依图已经在智慧城市、医疗、金融、零售等领域有了产品化、商业化积累。对于是否会将语音技术迁移于这些领域,吕昊回应:这一阶段仍旧以技术积累为主,依图在开放平台上提供了自有的API和模型算法,一方面可以经由市场验证算法质量,另一方面可以由此接近不同行业和场景。

据官方信息,依图与微软联合发布的语音开放平台基于Azure Cloud,将依图的语音识别技术能力开放给广泛第三方应用开发者使用。

在未来,依图计划陆续开放长语音转写API、实时语音转写API等。正如吕昊所说:希望为第三方应用开发者在语音领域提供多一个语音技术选择。

笔者认为:结合自有的CV技术积累,依图或许可在多模态情感识别和计算领域发力,融合视觉、语音等多重数据,全方位提升机器的感知能力。在商业化层面,虽然当下的依图语音技术开放平台仍旧以技术积累为重心,但依托CV积累的的B端用户,为企业级客户提供语音解决方案只是时间早晚问题。

————

 

您可以复制这个链接分享给其他人:https://www.yitutech.com/node/414