デバイスが人間と同じように、いやそれ以上に音を聞き取れるようになったとき
外の世界は騒がしい
従来の音声ユーザーインターフェースは、実環境下では十分な性能を発揮できません。背景ノイズや会話の重なり、予測不可能な状況などが、音声データの品質を低下させることが多く、その結果、音声認識の精度が低下し、話者に不満を抱かせる原因となっています。
はっきりと見えてくる
Spatial Hearing AIは、Kardomeのソリューションと製品を支える中核技術です。この技術は、音声UIがユーザーの言葉をこれまでにない精度で聞き取ることを可能にする画期的な機能を提供します。
デバイスに人間のような聴覚を持たせる
空間聴覚AIにより、デバイスは周囲の音を正確に聞き取り、認識できるようになります。この技術は3D音響環境を解析して音響空間をマッピングし、各音源を分離して複数の話者を区別するため、デバイスは周囲の状況に応じて適応的に反応することができます。 また、処理がすべてデバイス上で実行されるため、高速性とプライバシーも確保されます。
空間聴覚AI 製品
サウンドマップ
主力製品であるSoundMapは、音声や音がどこから発せられているかを空間的に検知します。移動する音源を追跡し、話者を別々のオーディオストリームに分離して文字起こしを行う「インタビューモード」を実現し、指定したエリアからの音声のみを捕捉します。
ClearZone NS
周囲の雑音をカットし、会話がクリアに聞こえるようにする2段階ノイズキャンセリング機能。
割り込み
不要な周囲の雑音を低減するリアルタイムのマルチチャンネル音響エコーキャンセレーション機能により、バックグラウンドで大音量の音楽が流れている場合でも、デバイスがユーザーの声を確実に聞き取ることができます。
高度な音声
ASR(自動音声認識)、ハンズフリー通話、およびその他の音声対応アプリケーション向けに音声を最適化する一連の音声処理アルゴリズム。
さらに詳しい情報を見る
ご質問はありますか? 私たちがお答えします。
空間聴覚AIとは何ですか?
Spatial Hearing AIは、Kardomeの中核となる音響クラスタリング技術です。方向性の「ビーム」に焦点を当てる従来のビームフォーミングとは異なり、Spatial Hearing AIは音響環境の動的な3Dマップを作成します。この技術は音源を空間内の独立したオブジェクトとして扱い、単に方向だけでなく、正確な位置(奥行きと高さ)に基づいて、音声をノイズから分離し、複数の話者を区別することができます。
「3D音響解析」とはどういう意味ですか?
方向を検知するだけの一般的な音声技術とは異なり、Kardomeの「Spatial Hearing AI」は3D音響シーン全体を分析します。この技術は奥行き、距離、高さを把握します。これにより、従来のビームフォーミングでは効果的に行えなかった、環境内の話者を区別することが可能になります。
Spatial Hearing AIは、従来のビームフォーミングとどのように異なるのでしょうか?
従来のビームフォーミングは、大まかな方向を捉えることに重点を置いていますが、反射音や、同じ「ビーム」内に複数の話者がいる場合には対応が困難です。一方、「Spatial Hearing AI」は、周囲の環境を完全な3D音響マップとして構築します。音源をリアルタイムで空間的に分離することで、残響の多い場所や混雑した空間であっても、特定の場所にいる特定の話者の声を明確に聞き取ることができ、指向性ビームフォーミングよりもはるかに高い精度を実現します。
この技術は、複数の話し手を区別することができますか?
はい。Spatial Hearing AIの最大の強みは、すべての声を3次元空間内の独立したオブジェクトとして扱うことができる点にあります。音源を空間的に分離することで、システムは話している人の声を、周囲の雑音や近くで話している他の人々の声から切り離し、音声アシスタントが意図したコマンドにのみ反応するようにします。
スピーカーが部屋の中を動き回っている場合でも、空間聴覚技術は機能しますか?
その通りです。固定式指向性マイクとは異なり、当社の空間聴覚AIアルゴリズムは、音響環境をリアルタイムで継続的に追跡します。これにより、システムはユーザーに「ロックオン」し、ユーザーが部屋の中を移動してもその声を追従し、信号の途切れなく安定した音声収録を維持することができます。
大音量で音楽を再生している間も、このデバイスはコマンドを認識できますか?
はい。この技術には、高度な音響エコーキャンセル(AEC)機能が搭載されています。これにより、デバイス自身の音声出力(大音量の音楽やナビゲーションの案内など)を効果的に抑制し、あらかじめ音量を下げることなく、ユーザーのウェイクワードやコマンドをシステムが明確に認識できるようになります。
この技術はハードウェアに依存していますか?
いいえ。Kardomeの空間聴覚AIは、ハードウェアに依存しません。標準的な低コストのマイクを使用して高性能な結果を提供し、さまざまなプロセッサアーキテクチャ(ARM、DSPなど)とシームレスに統合されるため、OEMメーカーは性能を向上させながら部品原価(BOM)を削減することができます。
処理はクラウド上で行われるのか、それともエッジ側で行われるのか?
この技術は、デバイス内での処理を想定して設計されています。このアプローチにより、生の音声データはローカルで処理され、デバイス外へ送信されることがないため、リアルタイムのやり取りにおいて遅延ゼロを実現し、データ使用量を削減するとともに、ユーザーのプライバシーを確実に保護します。