当设备像人一样听,甚至听得更好
外面的世界真是喧嚣
传统的语音用户界面在现实环境中往往难以胜任。背景噪音、交谈重叠以及不可预测的环境条件,常常导致采集到的语音质量下降,从而造成语音识别准确率低下,并引发说话者的挫败感。
豁然开朗
空间听觉人工智能是支撑Kardome解决方案和产品的核心技术。它提供了突破性的能力,使语音用户界面能够以前所未有的精准度理解用户所说的话。
让设备像人类一样“听”
空间听觉人工智能使设备能够精准地感知周围环境。它通过聆听三维声学环境并绘制声景图,能够分离各个声源并区分多个说话者,从而使设备能够根据周围环境的背景信息做出自适应响应。 而且,由于该技术完全在设备端运行,因此既保证了处理速度,又保障了隐私安全。
空间听觉人工智能 产品
声景图
SoundMap 作为一款核心产品,能够定位语音和声音的来源位置。它可追踪移动声源,通过将发言者转录为独立的音频流来启用访谈模式,并仅从指定区域捕获语音。
ClearZone NS
一款两级降噪引擎,可过滤环境噪音,确保语音清晰传出。
打断
提供实时多通道声学回声消除功能,可有效抑制不需要的环境噪音,因此即使背景中有响亮的音乐播放,设备也能清晰捕捉用户的声音。
高级语音
一套语音处理算法,可针对自动语音识别(ASR)、免提通话及其他语音应用优化语音处理效果。
有疑问吗?我们为您解答。
什么是空间听觉人工智能?
空间听觉人工智能是Kardome的核心声学聚类技术。与专注于定向“波束”的传统波束成形技术不同,空间听觉人工智能能够生成声学场景的动态三维地图。它将声源视为空间中的独立物体,从而能够将语音与噪音分离,并根据说话者的精确位置(深度和高度)——而不仅仅是方向——来区分多位说话者。
“3D声学分析”是什么意思?
与仅能检测声音方向的常规语音技术不同,Kardome的空间听觉人工智能能够分析整个三维声学场景。它能够理解深度、距离和高度。这使得系统能够区分环境中的不同说话者,而这是传统波束成形技术无法有效实现的。
空间听觉人工智能与传统波束成形技术有何不同?
传统的波束成形技术虽能锁定大致方向,却难以应对反射声以及同一“波束”内存在多个说话者的情况。空间听觉人工智能则能构建环境的完整三维声学地图。它能实时对声源进行空间分离,即使在 reverberant 或拥挤的空间中,也能从特定位置精准识别出特定说话者,其准确度远高于定向波束成形技术。
这项技术能区分多个说话者吗?
是的。空间听觉 AI 的核心优势在于它能够将每种声音视为三维空间中的独立对象。通过在空间上分离声源,该系统能够将正在说话的人与背景杂音或附近其他人的谈话区分开来,从而确保语音助手仅对预期的指令做出响应。
如果扬声器在房间内移动,空间音频技术还能正常工作吗?
当然。与静态定向麦克风不同,我们的空间听觉人工智能算法能够实时持续追踪声场。这使得系统能够“锁定”用户,并随着用户在房间内的移动追踪其声音,从而保持稳定的声音采集,不会出现信号中断的情况。
在播放大声音乐时,设备能识别语音指令吗?
是的。该技术具备先进的声学回声消除(AEC)功能。它能有效抑制设备自身的音频输出(如大声的音乐或导航提示),从而使系统能够清晰地识别用户的唤醒词或指令,而无需事先调低音量。
这项技术是否依赖于硬件?
不,Kardome 的空间听觉 AI技术不依赖特定硬件。它利用标准的低成本麦克风即可实现高性能表现,并能与各种处理器架构(如 ARM、DSP 等)无缝集成,从而帮助 OEM 厂商在提升性能的同时降低物料清单成本。
处理是在云端还是在边缘进行的?
该技术专为设备端处理而设计。这种方法确保了实时交互的零延迟,减少了数据使用量,并保障了用户隐私,因为原始音频数据是在本地处理的,且绝不会离开设备。