Kardome Automotiveは、AIを活用した技術により、自動車メーカーが次世代の音声インターフェースを開発できるよう支援しています

目次
目次
  • 目次を読み込んでいます...
音声アシスタントの普及を妨げる最大の障壁は、音声認識精度の不足です。さらに、最高の音声ユーザー体験を提供するためには、対応言語の範囲、ユーザーの期待、セキュリティ、コスト、そして導入や統合の複雑さといった課題にも対処する必要があります。Kardomeは、これらの多岐にわたる課題に対処するため、既存の車載音声認識システムを劇的に改善する、モビリティ分野向けのソフトウェアソリューションを開発しました。

自然言語処理と機械学習を統合することで、車内での音声操作体験がよりシームレスかつ直感的なものとなり、音声アシスタントは現代の自動車技術において不可欠な要素となっている。

しかし、多くの利点があるにもかかわらず、依然として解決すべき課題が残されています。音声アシスタントの普及を妨げる主な障壁は、音声認識精度の不足であり、これは騒がしく混雑した車内環境では特に大きな課題となります。さらに、可能な限り最高の音声ユーザー体験を提供するためには、対応言語の範囲、ユーザーの期待、セキュリティ、コスト、そして導入や統合の複雑さといった課題にも対処する必要があります。

こうした障壁は、一般的に狭く騒がしく、多くの人が詰め込まれていることが多い車内という環境では、さらに顕著になります。十分な音声認識精度を確保するためには、車載音声アシスタントの「聴覚能力」を向上させる必要があります。

車載音声アシスタントに人間並みの聴覚機能を提供する技術的ソリューションが不足しているため、一部の自動車メーカーは各座席の近くにマイクを設置している。このようなマイクネットワークは、部品原価(BOM)、設置費用、および保守費用の面でコストが高くなる。その結果、ほとんどの車両では、天井収納スペースに設置された単一のマイクアレイを使用し、音声アシスタントの利用は運転手に限定されている。

Kardomeは、こうした複数の課題に対処するため、既存の車載音声認識システムを劇的に改善するモビリティ分野向けのソフトウェアソリューションを開発しました。

Kardome Automotive Kardome Automotiveは、頭上収納スペースに設置した1つのマイクアレイで、3列の座席にわたる最大6人の話し手の音声を収録できる唯一のソフトウェアソリューションです。 必要な音声を 分離し 、背景ノイズやエコーを低減するほか、音声生体認証技術を用いて話し手を特定することができます

車載音声技術における効果的な音声取得の課題の検討:

1. 車両における音響的複雑性

車内は往々にして騒がしい環境です。低速走行時や路面が平坦な場所ではエンジン音が騒音の主因となりますが、高速走行時には風切り音が目立つようになります。市街地を走行する際、最も大きな騒音源となるのはロードノイズ、すなわちタイヤと路面との摩擦による音です。電気自動車はエンジン音が少ないとはいえ、ロードノイズや風切り音は依然として音声認識システムにとって大きな課題となっています。

さらに、シェアリングモビリティや自動運転の普及に伴い、車内には複数の人が同乗することが多くなっています。そのため、会話による騒音や、話し手同士の声が重なる問題、さらには話し手が使用する端末からの音なども課題となっています。

メーカーは、車内でのバックグラウンドノイズや複数人の会話といった課題に対処し、可能な限り最高の音声ユーザー体験を提供しなければならない。Voice.botの「車載音声アシスタントの消費者普及に関するレポート」によると、 ドライバーの60% が音声アシスタントの品質を意思決定の要因の一つとして挙げている一方、13%はそれを重要な要因と考えている。

さらに、音声アシスタントの利用を期待しているのは、運転手や助手席の乗客だけではありません。車内のすべての乗客が、スムーズな音声操作を期待しています。自動運転車の普及が進むにつれ、運転手や乗客による正確な音声操作へのニーズは、ますます重要になっていくでしょう。

2. 複雑な統合とコスト

ビームフォーミング技術を活用するため、自動車メーカーは、信頼性の高い音声ユーザーインターフェースを実現するために、乗員一人につき1つずつ、車両のルーフライナーにマイクアレイを設置する必要があります。各マイクアレイは、ビームフォーミングアルゴリズム を用いて、対象となる話者からの音声を捉えるように指向性を調整すると同時に、 走行騒音や他の話者からの干渉音を低減しようとします。

信頼性を高めるために複数のマイクを設置することは、大きなコスト負担となります。部品原価(BOM)や設置・保守費用が高額になるだけでなく、車内のレイアウトに合わせてマイクネットワークを個別に調整する必要があるため、設計コストもかさみます。

さらに、複数のマイクアレイを設置すると、設計上の制約が生じ、車両の美観を損なうことになる。例えば、ガラスルーフを備えた車両では、座席の上にマイクを設置することができない。

なぜ自動車メーカーは、頭上収納スペースに単一のマイクアレイだけを設置するのではなく、ビームフォーミング技術を用いて車内の全座席に向けて音声を捉えるようにしているのでしょうか?その答えは単純です。それは機能しないからです。

ビームフォーミングでは、「来音方向」と呼ばれる一連の一次元パラメータを用いて音響環境をモデル化します。しかし、車内のような密閉された環境では、音波は直進するだけでなく、車の窓やパネルに反射し、最終的には数百もの異なる方向からマイクロフォンアレイに到達することになります。

ビームフォーミングは単一の経路にしか焦点を合わせることができないため、実際の音響環境を正確に再現することができません。その結果、話者がマイクから50センチメートル以上離れている場合、ビームフォーミング技術では音声を効果的に捉えることができません。

Kardomeのイノベーション

Kardomeの革新的な技術の一つに「スポットフォーミング」があります。この独自の多次元音響空間解析手法は、環境内の各音源とマイクロフォンアレイとの相対的な位置関係を抽出することで、空間内のエコーなどの空間的情報を解読します。

スポットフォーミングは、音響空間内の各音源が生み出す反射パターンの全体像を推測できる技術です。この技術では、音源(話している人)が何らかの動作を行う必要はありません。反射パターンは、環境の形状および音源とデバイスとの相対的な位置関係によって決定されます。その結果、スポットフォーミングは、空間内の位置に基づいて話者を特定できる位置情報に基づく技術となります。

スポットフォーミングは、ビームフォーミングに内在するモデリング上の欠点を克服し、密閉された環境における多次元的な音響空間を正確に復元します。Kardomeのソリューションは、車内において実用的なメリットをもたらします。これは、天井収納スペースに設置された単一のマイクアレイが、車内の各乗員に向けて音響的なズーム効果を生み出すことができるためです。

 

Kardome Automotiveは、1つのマイクアレイで3列の座席にわたって話す最大6人の声を捉えることができる唯一のソフトウェアソリューションです。

カルドーム・オートモーティブ

スポットフォーミングのフレームワークに基づき、Kardomeは自動車業界向けに「Kardome Automotive」と呼ばれる包括的なエッジオーディオ・スタックを開発しました

Kardome Automotiveには、以下の機能が含まれています: 

  • スポットフォーミング方式を採用したオーディオ・フロントエンド(AFE):スポットフォーミングの3Dモデルは、残響を利用して異なる位置からの音(音声)を分離します。このAFEには、マルチチャンネル音響エコーキャンセレーション、ノイズリダクション、音源(話者)の分離機能に加え、車内における音声がどこから発せられているかを特定する機能が含まれています。
  • ウェイクワード: 「Alexa」や「Hey Siri」といった特定の呼びかけ語を聞き取ったときにのみ、音声認識を開始するように設計された独自のエッジ認識モデル
  • 音声生体認証:個人の声に基づいてユーザーを識別・認証するための独自のエッジモデル。

Kardome Automotiveソフトウェアパッケージは、スポットフォーミングを採用した包括的な音声スタックです。独自の音声生体認証技術およびウェイクワードAIモデルがこれに組み込まれており、スポットフォーミングのフレームワーク下で動作するよう設計・学習されています。

Kardomeの空間聴覚ソフトウェアは、最も過酷な音響環境下であっても、機械が話者の声、位置、および発話内容を正確に認識することを可能にします。Speech AIモジュールをAFEのトレーニングプロセスに統合することで、Kardomeのアプローチは、AFEとSpeech AIを別々に開発する断片的なシステムと比較して、優れた性能を発揮します。

Kardome Automotiveは、以下の車載ユースケースに対応しています: 

  • コミュニケーション
  • ハンズフリー通話
  • 車内放送(アナウンスモードのみ)
  • 音声人工知能(AI)
  • ウェイクワード認識
  • 音声認証
  • 自動音声認識:サードパーティ製のASRエンジンとの連携を通じて。

AFEモジュールは、音声AIモジュールへの入力提供と、ハンズフリー通話(HFT)などの通信モジュールへの出力提供という、2つのモードで動作します。音声AIにおいては、AFEが対象の話し手を分離することで音声認識率を向上させ、もう一方のモードでは出力時の音声品質を最適化します。システムは、両方のシナリオにおいて性能を最大化するため、これらのパラメータを自動的に切り替えます。

以下は、8つのMEMSマイクロフォンで構成されるマイクロフォンアレイを採用したAFEモジュールのブロック図です。このシステムでは、頭上収納棚に設置された1つのマイクロフォンアレイを用いて、3列の座席にわたって最大6箇所の音源捕捉ポイントを設けています。

ハードウェアとのシームレスな連携

Kardome Automotiveは、インフォテインメントシステムのファームウェアに統合されたソフトウェアソリューションです。

OEM各社は、このソフトウェアをメインのアプリケーションプロセッサ(AP)上で、LinuxライブラリまたはAndroidアプリケーションとして実装することができます。あるいは、QualcommのHexagon DSPやSamsungのHiFi DSPなど、APチップに統合された専用DSP、あるいは外部の専用チップを使用してKardome Automotiveを実装することも可能です。Kardome Automotiveソフトウェアを実装する際は、音響エコーキャンセラー(AEC)機能を実現するために、オーディオ出力リファレンス信号へのアクセスが必要となります。

Kardome Automotiveは、4個以上のマイクロフォンで構成されるあらゆるマイクロフォンアレイに対応可能です。使用されるマイクロフォン素子は、通常、シンプルなMEMSマイクロフォンです。Kardome Automotive向けの代表的なマイクロフォンアレイは、8個のMEMSマイクロフォンで構成され、外形寸法は20×50×5mmです。また、前述の通り、OEM各社は通常、このようなマイクロフォンアレイをオーバーヘッドコンパートメントに配置し、A2Bオーディオバスを介して中央インフォテインメントシステムと接続することを好みます。

結論:Kardome Automotiveによる車載音声技術の革命

Kardome Automotiveは、車載音声技術の革新を牽引しています。同社のスポットフォーミング音声AI技術は、従来の音声システムの限界を解消し、乗客一人ひとりにパーソナライズされた音声インターフェースを提供します。Kardomeの革新的なアプローチにより、正確かつ高精度な音声認識が実現され、真にコネクテッドでパーソナライズされた運転体験への道が開かれます。

この記事、お楽しみいただけましたか?

最新の動画ビジネスニュース、戦略、洞察をメールで直接お届けします!

詳細はこちら