Kardome Automotive 助力汽车整车制造商利用人工智能技术打造新一代语音交互界面

目录
目录
  • 正在加载目录...
阻碍语音助手普及的主要障碍是语音识别准确率不足。此外,为提供最佳的语音用户体验,还必须解决语言覆盖范围、用户期望、安全性、成本以及部署和集成的复杂性等挑战。Kardome 针对移动出行领域开发了一套软件解决方案,该方案能显著提升现有的车载语音识别系统,从而应对这些多重挑战。

自然语言处理与机器学习的融合,带来了更加流畅、直观的车载语音交互体验,使语音助手成为现代汽车技术中不可或缺的一部分。

然而,尽管语音助手具有诸多优势,仍需解决一些挑战。阻碍语音助手普及的主要障碍是语音识别准确率不足,这在嘈杂且拥挤的车内环境中尤为棘手。此外,为提供最佳的语音用户体验,还必须解决语言覆盖范围、用户期望、安全性、成本以及部署和集成的复杂性等挑战。

在典型的汽车环境中,这些障碍显得尤为突出——车内通常空间狭小、噪音较大,且常挤满乘客。必须提升车载语音助手的“听力能力”,以确保足够的语音识别准确率。

由于目前尚缺乏能为车载语音助手提供类人听觉能力的技术解决方案,部分汽车制造商已在每个车座附近安装了麦克风。此类麦克风网络在物料清单(BOM)、安装及维护成本方面都十分昂贵。因此,在大多数车辆中,语音助手仅限驾驶员使用,且仅通过车顶储物格内的单个麦克风阵列进行交互。

Kardome 为移动出行领域开发了一套软件解决方案,该方案能显著提升现有车载语音识别系统的性能,从而应对这些多重挑战。

Kardome Automotive 是唯一一款能够通过车顶储物箱内单个麦克风阵列,同时捕捉三排座椅上多达六位乘客声音的软件解决方案。该系统 可分离目标语音、降低背景噪音和回声,并能通过语音生物识别技术识别说话者身份

探讨车载语音技术中有效语音捕获面临的挑战:

1. 车辆中的声学复杂性

车内环境往往嘈杂喧闹。在低速行驶或路面平坦时,发动机噪音占据主导地位;而在高速行驶时,风噪声则变得更为突出。在城市驾驶时,最大的噪音来源是路噪,即轮胎与路面之间的摩擦产生的噪音。尽管电动汽车的发动机噪音较小,但路噪和风噪仍对语音识别系统构成重大挑战。

此外,随着共享出行和自动驾驶的兴起,车内往往不止一人。这意味着车内交谈产生的噪音、说话者之间的干扰以及说话者设备发出的噪音也成为了需要解决的问题。

制造商必须解决车内背景噪音以及多人交谈等问题,以提供最佳的语音用户体验。根据Voice.bot发布的《车载语音助手消费者采用报告》,60 %的驾驶员表示语音助手的质量是其决策过程中的一个考量因素,而13%的驾驶员则认为这是关键因素。

此外,不仅驾驶员和前排乘客期待能够使用语音助手,车内所有乘客都希望语音交互能够流畅无阻。随着自动驾驶汽车的普及,驾驶员和乘客对精准语音交互的需求将变得愈发重要。

2. 复杂的集成与成本

借助波束成形技术,汽车制造商必须在车顶内衬中部署麦克风阵列,每位乘客对应一个,以实现可靠的声音用户界面。每个麦克风阵列都采用波束成形算法,将声音采集方向精准对准目标说话者,同时 尽力抑制驾驶噪音和干扰性说话者的声音

部署多个麦克风以提高可靠性是一项重大开支。这不仅在物料清单(BOM)、安装和维护方面成本高昂,而且由于麦克风网络需要针对每辆车的内饰进行定制,因此还会产生高昂的设计成本。

此外,部署多个麦克风阵列会带来设计上的限制,并影响车辆的美观。例如,配备玻璃车顶的车辆无法在座椅上方安装麦克风。

为什么汽车制造商不愿仅在车顶储物格安装一个麦克风阵列,而是采用波束成形技术,将语音采集范围覆盖到车内所有座位?答案很简单:这种做法行不通。

波束成形技术涉及利用一组称为“声源方向”的一维参数来建模声场。然而,在任何封闭环境中(例如车内),声波不仅沿直线路径传播,还会从车窗和车身面板上反射,最终从数百个不同方向抵达麦克风阵列。

波束成形技术只能聚焦于单一路径,导致对实际声学环境的还原不准确。因此,如果说话者距离麦克风超过50厘米,波束成形技术就无法有效捕捉语音。

Kardome 的创新

Kardome 的创新技术包括“声源定位”。这种专有的多维声场分析方法通过提取环境中各声源与麦克风阵列之间的相对位置,来解析空间中的回声等空间线索。

点成形(Spot-forming)是一种能够推断声景中每个声源产生的完整反射模式的技术。该技术无需声源(说话者)采取任何动作即可实现。环境几何结构以及声源与设备之间的相对位置共同决定了反射模式。因此,点成形是一种基于位置的技术,能够根据说话者在空间中的位置对其进行分类。

点成形技术克服了波束成形固有的建模缺陷,能够准确解码封闭环境中的多维声场。Kardome 的解决方案在汽车领域具有实际应用价值,因为车顶储物格中的一组麦克风阵列即可针对车内每位乘员实现声学聚焦。

 

Kardome Automotive 是唯一一款能够通过单个麦克风阵列,捕捉三排座椅上多达六名人员讲话声音的软件解决方案。

Kardome 汽车解决方案

基于现场处理框架,Kardome 为汽车行业开发了一套完整的边缘计算音频解决方案,名为Kardome Automotive。

Kardome Automotive 包含以下功能: 

  • 基于声源定位的音频前端(AFE):声源定位的3D模型利用混响将来自不同位置的声音(语音)进行分离。该音频前端包含多通道声学回声消除、降噪、声源(说话者)分离功能,并能识别车内语音的来源位置。
  • 唤醒词:专有边缘识别 模型,仅在听到特定唤醒词(如“Alexa”或“Hey Siri”)时才会开始聆听。
  • 语音生物识别:基于个人声音识别/验证用户的专有边缘模型。

Kardome Automotive 软件包是一个采用点形成(spot-forming)技术的综合性语音处理框架。在此基础上,采用了专有的语音生物识别和唤醒词 AI 模型,这些模型均在点形成框架下进行设计和训练。

Kardome 的空间听觉软件使设备能够准确识别说话者的声音、位置及语音内容,即使在最严苛的声学环境下亦是如此。通过将语音 AI 模块集成到前端处理器(AFE)的训练过程中,Kardome 的解决方案相比于分别独立开发 AFE 和语音 AI 的分散式系统,展现出了更优异的性能。

Kardome Automotive 支持以下车载应用场景: 

  • 沟通
  • 免提通话
  • 车内通讯,仅限广播模式
  • 语音人工智能(AI)
  • 唤醒词识别
  • 语音识别
  • 自动语音识别:通过与第三方ASR引擎的接口实现。

AFE 模块具有两种工作模式:一是为语音 AI 模块提供输入,二是为免提通话(HFT)等通信模块提供支持。在语音 AI 应用中,AFE 模块通过分离目标说话人来提高语音识别率;而在第二种模式下,则致力于优化输出端的语音质量。该系统会自动切换这些参数,以在两种场景下均实现最佳性能。

下图是AFE模块的框图,该模块采用由八个MEMS麦克风组成的麦克风阵列。该系统通过头顶储物柜中的单个麦克风阵列,可在三排座椅上设置多达六个拾音点。

与硬件无缝集成

Kardome Automotive 是一款集成于车载娱乐系统固件中的软件解决方案。

OEM厂商可在主应用处理器(AP)上以Linux库或Android应用程序的形式部署该软件。此外,Kardome Automotive也可通过集成在AP芯片中的专用DSP(如高通Hexagon DSP和三星HiFi DSP)来实现,或采用外部专用芯片。部署时,Kardome Automotive软件必须能够访问音频输出参考信号,以便实现声学回声消除功能。

Kardome Automotive 可兼容任何由四个或更多麦克风组成的麦克风阵列。所使用的麦克风单元通常是简单的MEMS麦克风。Kardome Automotive 典型的麦克风阵列由8个MEMS麦克风组成,整体尺寸为20 x 50 x 5毫米。此外,如前所述,整车制造商通常倾向于将此类麦克风阵列安装在车顶储物格内,并通过A2B音频总线与中央车载娱乐系统连接。

结论:Kardome Automotive的车载语音技术革命

Kardome Automotive 正引领车载语音技术的革命浪潮。其“点形成”语音人工智能技术突破了传统语音系统的局限,为每位乘客提供个性化的语音交互界面。Kardome 的创新方案确保了精准可靠的语音识别,为打造真正互联且个性化的驾驶体验铺平了道路。

喜欢这篇文章吗?

订阅我们的邮件,第一时间获取最新的视频行业资讯、策略和洞察!

了解更多

语音AI的变现差距