自动语音识别(ASR)引擎问世已有三十余年。这项技术已从笨重、昂贵且运行缓慢的语音录入应用,迅速发展为如今广泛应用于汽车、家庭、教室及工作场所的人工智能驱动型语音识别设备。
2011年,随着苹果推出搭载Siri功能的iPhone 4S,语音识别技术在消费者和企业中的应用迎来了爆发式增长。当时,全球语音技术市场的规模估计为6亿美元。到2021年,该市场规模已达到83亿美元,分析师预计 到2027年将达到惊人的 222亿美元。
尽管语音和言语技术行业被预测将实现三倍增长,但语音识别性能不佳的问题——即系统在嘈杂环境或存在干扰信号的情况下无法正常工作,且无法准确识别说话者身份——可能会阻碍这种指数级增长。
消费者对语音识别技术的失望
在一项2020年的全球调查中, 73%的用户表示,准确性是阻碍语音技术普及的首要因素。
口音和方言相关的问题是用户面临的第二大困扰。最终用户的期望以及使用和集成的复杂性,也是阻碍语音技术普及的主要障碍。
普华永道(PwC)的一项研究中引用的以下内容,生动地反映了人们目前对语音识别设备的不满,并指出了一个重大障碍:信任。
“那个助手有一半时间都答不上来我的问题,但我居然还得相信它能帮我处理涉及金钱的事?”
—女性,26岁,普华永道
Voicebot.ai最近的一项研究显示,过去两年里智能音箱的使用量急剧下降。相反,消费者更多地使用智能手机上的虚拟助手。
这是否部分归因于用户对智能音箱语音识别功能的失望?智能手机之所以更容易理解用户,可能是因为用户会将手机拿得更近,或者使用耳机,从而让用户的声音更接近语音识别系统。
语音识别性能不佳令消费者感到沮丧。由于背景噪音、多人交谈、信号中断以及距离等因素,语音识别系统无法准确处理和理解人类语音。
理想的语音识别系统能在安静或嘈杂的环境中实现精准的语音识别。此外,卓越的语音识别设备还能识别说话者身份及其所在位置,从而针对语音指令提供精准且个性化的响应。
为了赢得信任,并推动语音技术在消费者和企业中的加速普及,语音识别(ASR)系统工程师以及支持语音功能的设备制造商必须提供尽可能卓越的语音识别性能。
应对ASR技术挑战
语音控制设备有望彻底改变我们生活的方方面面,从家庭自动化到辅助技术及认知辅助。
许多企业部署语音界面,以提升客户体验并增强品牌互动。随着语音识别和语音合成技术的日益精准和易用,语音界面也将越来越多地应用于客户服务和支持领域,或用于其他用途,例如优化医疗和金融行业。
在IT行业,语音技术并非新鲜事物。但随着支持语音功能的智能手机日益普及和普及,加之人们对更自然的人机交互方式的需求不断增长,语音技术已成为许多软件公司的首要任务。
多年来,语音识别所面临的技术挑战早已为人所知,并已被许多公司所攻克。只要我们能够解决这些挑战,语音设备市场就将继续增长。
研究表明,Kardome 在复杂的声学环境中可实现 95% 的语音识别准确率
随附的研究表明,在最嘈杂的环境中,Kardome的语音用户界面技术表现优于传统的语音识别算法。
该研究通过考察从最安静到最嘈杂的各种环境下的语音识别(ASR)性能,来衡量唤醒词误拒率(FRR)和响应准确率(RAR)。
我们在典型的嘈杂客厅环境中对FRR和RAR进行了测试,该环境中的背景噪音包括风扇、空调以及儿童嬉戏声。此外,我们还进行了另一项测试,将智能音箱放置在声音响亮的智能电视旁边。
下载该研究报告