全国统一服务热线: 4006-855-333

百度推新款语音识别模型,准确率飙升30%,还有三款AI语音芯片模组

2019年12月03日        中国机器人产业网

在百度大脑开放日上,百度语音首席架构师贾磊推出了一款新的语音识别模型——全名叫“基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型”,它与业内几乎所有语音识别方案都不一样,打破了传统远场语音识别技术的流程,能够将语音识别准确率提高30%以上。

在采访中,贾磊告诉智东西,这款语音识别模型是百度前后历时近一年打造的。在三年之内,随着这一技术的不断发展成熟,远场语音识别的准确率将能达到近场语音交互的水平,未来远场语音交互将会是主流。

百度AI技术生态部总经理喻友平则推出了三款基于百度鸿鹄语音芯片的硬件模组及开发板,以及基于智能家居、智能车载、智能IoT设备这三大场景的行业解决方案人,让智能硬件厂家更好、更快地集成AI语音能力。

百度CTO王海峰在还开场致辞中表示,目前,百度语音技术平台每天调用量已经超过了100亿次。

一、颠覆传统远场语音识别流程,准确率提高30%

贾磊表示,传统远场语音交互技术,首先要对声音进行数字信号处理(信号增强、波束生成等),接着再对其进行语音识别,涉及数字信号处理和语音识别这两大学科。

而今天百度推出的基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型则是一款几近颠覆式的新模式,它打破了上述传统流程,以一套深度学习模型代替整个流程。

这套模型能够直接输入多路麦克风信号,输出目标语音文字,参数调整只有字准确率这唯一的优化目标,不需要任何声学先验知识。

贾磊说,目前除了谷歌之外,业内所有主要玩家的语音交互都采用都是传统的方式。但是随着识别率到达一定阶段,传统远场语音识别的准确率很难再进一步提高。

百度的这款新模型搭配百度鸿鹄语音芯片,能够将语音识别准确率提高30%以上。

在采访中,贾磊告诉智东西,即便设备没有搭载鸿鹄芯片,而是搭载其他传统ARM芯片,这套新模型也能让远场语音识别、首次唤醒准确率大幅提升。

贾磊说,深度学习的下一步方向就是这种跨领域融合的技术,目前深度学习的端到端、跨学科整合方面正在快速发展,不断对已有学科进行着颠覆。

二、推出三款AI语音开发板+三大行业解决方案


喻友平则在现场推出了三款基于百度鸿鹄语音芯片的硬件模组及开发板,为智能硬件厂家提供软硬一体的解决方案,让智能产品更好、更快地集成远场语音交互能力。
同时,针对细分场景,喻友平还在现场推出了基于鸿鹄语音芯片的智能家居、智能车载、智能IoT设备这三大场景的解决方案。

喻友平说,百度大脑开放平台目前是国内服务规模最大的AI开放平台,当前,其开发者群体超过150万(主要是企业开发者)、有228项开放的技术能力、能够在24小时内快速集成。

而对于智能硬件来说,加入语音交互能力有三大主要难点:

1)唤醒、降噪、识别的语音算法要求高;

2)软硬件适配复杂、周期长;

3)硬件选型难;

而百度今天推出的三款硬件模组和三大行业解决方案正是为了解决这些问题所打造的。

三、王海峰:AI在应用场景中不断进化


百度CTO王海峰在开场致辞中表示,目前百度大脑已经开放了200多项能力,语音能力是其中的重要方面。

百度从2010年开始进军AI语音技术,2010年初开始全面布局人工智能技术,2011年下半年开始研究深度学习,2012年初正式立项研究开发基于深度学习的语音技术。

王海峰表示,人工智能是用电脑计算机模拟人的能力,人类在自然环境中不断进化,人工智能也在应用场景中不断进化。

当前,算力高速发展、算法持续提升、数据不断积累,从而推动AI技术不断进化。

同时王海峰还表示,目前,百度语音技术平台每天调用量已经超过了100亿。

四、语音AI落地各行各业

除此之外,来自创维、瓴岳、子杰宝贝、华智水稻、善行智能的百度合作伙伴也分别介绍了百度AI技术落地在家电、金融、护理、农业、智能眼镜等方面的落地。

创维AIoT研究院产品经理李凯表示,从2017年开始,创维就和百度进行了深度合作。创维集团AIoT研究院成立于2018年,专注于AIoT相关技术的研发与合作落地。

李凯告诉智东西,目前创维的“Swaiot小维智联”AI系统的设备部署量已经突破了千万台。创维电视目前也正在推进与百度鸿鹄语音芯片的合作落地。

此外,喻友平还在现场发布了百度大脑语音公益计划,将为听障、视障、行动不便等群体提供智能产品与服务的公益组织提供免费的语音识别、语音合成技术,并以最低价钱提供语音硬件模组。

上一篇:人工智能可以通过基于语音的移动应用程序检测心理疾病 下一篇:民企院士第一人:我“忽悠”马云10个亿 还给阿里5000亿
新闻中心
人工智能大会专题|看懂2019世界人工智能大会,“预见”未来
先锋音讯应邀参加  2019第四届上海国际人工智能展览会暨人工智能产业大会
未经对方同意的录音,有法律效力吗?!
滴滴:行程录音已覆盖所有订单 录像年底覆盖50%
Google新型的AI语音录制应用程序
AI语音定制化,将给2020带来三个可能
医生“动嘴”就能写病历,小汤山医院用上智能语音病历
警惕!超声波可轻松入侵你的智能语音助手
呼叫中心系统组织架构拓图
智能语音电话打给雷神山出院病人 上海医生把满意度调查带到武汉
行业定制开发解决方案
公安系统云通讯数据解决方案
监狱管理云通讯数据解决方案
电力调度云通讯数据解决方案
武警军队云通讯数据解决方案
金融理财云通讯数据解决方案
电子商务云通讯数据解决方案
证券服务云通讯数据解决方案
航运调度云通讯数据解决方案
税务监督云通讯数据解决方案
保险行业云通讯数据解决方案
销售服务中心
全国统一销售热线:
4006-855-333
下班及节假日业务咨询热线:
13581829597 (黄小姐)
15321719818(李小姐)
15110089706 (何小姐)
技术服务中心
全国统一技术热线:
4008-158-111
7X24小时技术服务热线:
15901455758(张先生)
13522882101(商先生)
13522649022(陈先生)
18201150332(李先生)
技术监督电话
13521701318(赵工)
关于我们
QQ技术支持
陈工程师
商工程师
张工程师
李工程师