全国统一服务热线: 4006-855-333

谷歌推出AI非标准语音识别功能,大大降低ASR模型错误率

2019年08月15日        先锋官网

谷歌于5月在I/O上宣布了Euphonia项目:试图使语音识别理解具有非标准语音或障碍的人。谷歌刚刚发布了一篇文章和一篇论文,解释了其人工智能的一些功能。

对于那些有运动障碍的人,比如由肌萎缩侧索硬化症(ALS)等退化性疾病引起的人,他们的说话声音根本无法被现有的自然语言处理系统所理解。

ASR(自动语音识别)系统通常是从“典型”语音中训练出来的,这意味着代表性不足的群体,比如那些有语音障碍或口音重的群体,不会体验到同样程度的实用功能。

目前最先进的ASR模型也会发生高错误率,只有中度言语障碍的ALS,有效地阻止访问ASR依赖的技术。

值得注意的是,他们至少在一定程度上要归咎于训练集。这是我们在人工智能模型中发现的那些内隐偏见之一,这些偏见可能会在其他地方导致高错误率,比如面部识别。

对谷歌的研究人员来说,这些意味着他们要从ALS患者那里收集数十小时的语音。正如你可能预期的那样,因为每个人受自身状况的影响都不一样,所以适应疾病的影响与适应,比如说,一种不寻常的口音,不是同一个过程。

用一个标准的语音识别模型作基准,然后以一些实验性的方式进行调整,在新的音频上进行训练。仅这一点就大大降低了单词错误率,而且对原始模型的更改相对较小,这将意味着在调整到一个新的语音时不需要太多的计算。

研究人员发现,当这个模型仍然被一个给定的音素(即像“e”或“f”这样的单个语音)所混淆时,它有两种错误。首先,它不能识别图上的因素,因此不能识别单词。其次,模型必须猜测说话者想要表达的音素,在两个或两个以上单词发音大致相似的情况下,就有可能会选择错误的音素。

第二个错误是智能处理的错误。也许你说,“我要回到房子里去”,而系统却不能识别出房子里的“b”和“h”。

但这要留给未来去研究。目前,你可以知道的是该团队发表的一篇名为“在有限的数据下,个性化语音障碍和重音语音的ASR”的论文,将于下月在奥地利举行的Interspeech大会上发表。

上一篇:先锋音讯应邀参加  2019第四届上海国际人工智能展览会暨人工智能产业大会 下一篇:2019世界人工智能大会 AI赋能未来金融
新闻中心
先锋音讯应邀参加  2019第四届上海国际人工智能展览会暨人工智能产业大会
未经对方同意的录音,有法律效力吗?!
滴滴:行程录音已覆盖所有订单 录像年底覆盖50%
先锋音讯浅谈云录音系统应如何架构?
解码腾讯优图人工智能:为落地而战!
德勤:2025年全球人工智能市场规模将超6万亿美元,复合增长率达30%
人工智能大会专题|看懂2019世界人工智能大会,“预见”未来
2019世界人工智能大会在沪开幕 李强出席并致辞
重磅!平安人寿推出AI视频机器人!
2019世界人工智能大会 AI赋能未来金融
行业定制开发解决方案
公安系统云通讯数据解决方案
监狱管理云通讯数据解决方案
电力调度云通讯数据解决方案
武警军队云通讯数据解决方案
金融理财云通讯数据解决方案
电子商务云通讯数据解决方案
证券服务云通讯数据解决方案
航运调度云通讯数据解决方案
税务监督云通讯数据解决方案
保险行业云通讯数据解决方案
销售服务中心
全国统一销售热线:
4006-855-333
下班及节假日业务咨询热线:
13581829597 (李小姐)
15321719818(李小姐)
15110089706 (何小姐)
技术服务中心
全国统一技术热线:
4008-158-111
7X24小时技术服务热线:
18310479300(杨先生)
15901455758(张先生)
13522882101(商先生)
13522649022(陈先生)
18201150332(李先生)
技术监督电话
13521701318(赵工)
关于我们
QQ技术支持
陈工程师
商工程师
张工程师
杨工程师
李工程师