現在の音声認識技術の問題点

目次
目次
  • 目次を読み込んでいます...
消費者の信頼を獲得し、音声技術の普及を加速させ続けるためには、ASRシステムエンジニアや音声対応デバイスメーカーは、可能な限り最高のASR性能を提供しなければならない。

自動音声認識(ASR)エンジンは、30年以上にわたって存在しています。この技術は、扱いにくく、高価で、処理速度の遅い音声入力アプリケーションから、車内や家庭、教室、職場などで使われる人工知能(AI)搭載の音声認識デバイスへと、急速に進化を遂げました。

消費者や企業による音声認識技術の採用が急拡大したのは、2011年にAppleがSiriを搭載したiPhone 4Sを発売した時でした。当時、世界の音声・スピーチ技術市場は6億ドルと推定されていました。この市場は2021年には83億ドルに達し、予測 によると2027年までに驚異的な 222億ドルに達すると見込まれています

音声・発話技術業界では3倍の成長が見込まれているものの、騒がしい環境や干渉信号がある状況下では機能せず、誰が話しているかを正確に識別できないといった、音声認識性能の低さという課題が、この急激な成長を鈍化させる可能性がある。

ASR技術に対する消費者の不満

2020年に実施された世界規模の調査によると、 ユーザーの73%が、音声技術の導入を妨げる最大の要因は 精度であると 回答している

アクセントや方言に関する問題は、ユーザーが直面する課題の中で2番目に大きな不満の原因となっています。また、エンドユーザーの期待や、利用・統合の複雑さも、音声技術の導入における主要な障壁となっています。

PwCの調査報告書にある以下の引用は、音声認識デバイスに対する現在の不満と、大きな障壁となっている「信頼」という問題を如実に示している。

「アシスタントは半分くらいの質問には答えられないのに、お金に関わることを任せていいものなのか?」

—女性、26歳、PwC

Voicebot.aiによる最近の調査によると、過去2年間でスマートスピーカーの利用が急激に減少していることが明らかになった。その代わりに、消費者はスマートフォンの音声アシスタントをより頻繁に利用するようになっている。

これは、スマートスピーカーの音声認識機能に対するユーザーの不満が一部原因となっているのでしょうか?スマートフォンの方がユーザーの言葉をより正確に認識できるのは、ユーザーがスマートフォンをより近くに持ったり、イヤホンを使用して自分の声を音声認識システムに近づけたりしているためかもしれません。

音声認識の精度が低いことは、消費者の不満を招いています。ASRシステムは、背景ノイズ、複数人の会話、信号の途切れ、距離などの要因により、人間の話し言葉を正確に処理・理解できていません。

理想的なASRシステムは、静かな環境でも騒がしい環境でも、正確な音声認識を実現します。さらに、優れた音声認識デバイスは、誰が話しているのか、その人がどこにいるのかを把握し、音声コマンドに対して正確かつ個人に合わせた応答を提供します。

消費者の信頼を獲得し、音声技術の普及を加速させ続けるためには、ASRシステムエンジニアや音声対応デバイスメーカーは、可能な限り最高のASR性能を提供しなければならない。

ASRの技術的課題への対応

音声対応デバイスは、ホームオートメーションから支援技術や認知支援に至るまで、私たちの生活の多くの側面に変革をもたらす可能性を秘めています。

多くの企業が、顧客体験の向上やブランドエンゲージメントの強化を目的に、音声インターフェースを導入しています。また、音声認識や音声合成の精度が向上し、使いやすくなるにつれ、顧客サービスやサポート、さらには医療や金融分野の業務効率化など、その他の目的でも音声インターフェースの利用がますます広がる可能性があります。

IT業界において、音声技術は決して新しいものではありません。しかし、音声対応スマートフォンの普及と利用機会の拡大に加え、より自然な音声による人間と機械の対話への需要が高まっていることから、多くのソフトウェア企業にとって、これは最優先課題となっています。

音声認識に伴う技術的な課題は以前から広く知られており、長年にわたり多くの企業が取り組んできた。こうした課題に対処し続ける限り、音声対応デバイスの市場は今後も成長し続けるだろう。

研究によると、Kardomeは騒がしい環境下でも95%の音声認識精度を実現している

付随する研究によると、Kardomeの音声ユーザーインターフェース技術は、最も騒がしい環境下において、従来の音声認識アルゴリズムよりも優れた性能を発揮することが示されている。

本研究では、最も静かな環境から最も騒がしい環境に至るまで、さまざまな環境下におけるASRの性能を調査し、ウェイクワードの誤拒否率(FRR)および応答精度率(RAR)を測定している。

ファンやエアコンの稼働音、子供たちの遊び声などの背景騒音がある、一般的な騒がしいリビングルームの環境にスマートスピーカーを設置し、FRRとRARのテストを行いました。さらに、音量の大きいスマートテレビの隣にスマートスピーカーを設置してテストも行いました。

調査報告書をダウンロードする

 

この記事、お楽しみいただけましたか?

最新の動画ビジネスニュース、戦略、洞察をメールで直接お届けします!

詳細はこちら