현재 음성 인식 기술의 문제점

목차
목차
  • 목차 불러오는 중...
소비자와 기업의 음성 기술 도입을 가속화하고 신뢰를 얻기 위해서는, ASR 시스템 엔지니어와 음성 지원 기기 제조사들이 가능한 한 최고의 ASR 성능을 제공해야 합니다.

자동 음성 인식(ASR) 엔진은 30년 넘게 사용되어 왔다. 이 기술은 투박하고 비싸며 느린 받아쓰기 애플리케이션에서 시작해, 이제는 자동차, 가정, 교실, 직장에서 사용되는 인공지능 기반 음성 인식 기기로 빠르게 발전했다.

소비자와 기업을 중심으로 음성 인식 기술의 보급이 급증한 것은 2011년 애플이 시리(Siri) 기능을 탑재한 아이폰 4S를 출시했을 때였다. 당시 전 세계 음성 기술 시장 규모는6억 달러로 추산되었다. 이 시장은 2021년 83억 달러에 달했으며, 시장 분석가들은 2027년까지 무려 222억 달러에 이를 것으로 전망하고 있다.

음성 및 언어 기술 산업이 3배 성장할 것이라는 전망에도 불구하고, 소음이 심한 환경이나 간섭 신호가 있는 상황에서 제대로 작동하지 않거나 누가 말하는지 정확히 식별하지 못하는 등 음성 인식 성능의 문제점들이 이러한 기하급수적인 성장을 저해할 수 있다.

음성 인식 기술에 대한 소비자의 불만

2020년 전 세계 대상 설문조사에서 응답자의 73%가 정확도가 음성 기술 도입을 가로막는 가장 큰 요인이라고 답했다.

억양 및 방언 관련 문제는 사용자들이 겪는 두 번째로 큰 불편 사항입니다. 또한 최종 사용자의 기대치와 사용 및 통합의 복잡성도 음성 기술 도입을 가로막는 주요 장애물입니다.

PwC 연구 보고서의 다음 인용문은 음성 인식 기기에 대한 현재의 불만과 주요 장애물인 ‘신뢰’ 문제를 잘 보여줍니다.

“비서가 내 질문에 절반은 대답도 못 하는데, 돈과 관련된 일을 도와줄 거라고 믿으라는 건가요?”

—여성, 26세, PwC

Voicebot.ai의 최근 연구에 따르면, 지난 2년 동안 스마트 스피커 사용량이 급격히 감소한 것으로 나타났습니다. 대신 소비자들은 스마트폰의 가상 비서를 더 많이 이용하고 있습니다.

이는 스마트 스피커의 음성 인식 기능에 대한 고객들의 불만 때문일 수도 있지 않을까? 스마트폰이 사용자의 말을 더 잘 알아듣는 이유는, 사용자가 휴대폰을 더 가까이 대거나 이어폰을 사용해 자신의 목소리가 음성 인식 시스템에 더 가까이 전달되기 때문일 수 있다.

음성 인식 성능이 저조해 소비자들의 불만이 커지고 있습니다. 배경 소음, 여러 사람이 동시에 말하는 상황, 신호 장애, 거리 등의 요인으로 인해 ASR 시스템이 사람의 말을 정확하게 처리하고 이해하지 못하고 있습니다.

이상적인 ASR 시스템은 조용한 환경이나 소음이 심한 환경에서도 정확한 음성 인식을 제공합니다. 또한, 완벽한 음성 인식 장치는 누가 말하고 있는지, 그리고 그 사람이 어디에 있는지 파악하여 음성 명령에 대해 정확하고 개인화된 응답을 제공합니다.

소비자와 기업의 음성 기술 도입을 가속화하고 신뢰를 얻기 위해서는, ASR 시스템 엔지니어와 음성 지원 기기 제조사들이 가능한 한 최고의 ASR 성능을 제공해야 합니다.

ASR 기술적 과제 해결

음성 인식 기기는 홈 오토메이션부터 보조 기술 및 인지 지원에 이르기까지 우리 삶의 여러 측면에 혁신을 가져올 잠재력을 지니고 있습니다.

많은 기업들이 고객 경험을 개선하고 브랜드 참여도를 높이기 위해 음성 인터페이스를 도입하고 있습니다. 또한 음성 인식 및 합성 기술의 정확도가 높아지고 사용이 간편해짐에 따라, 음성 인터페이스는 고객 서비스 및 지원은 물론 의료 및 금융 분야의 업무 효율화 등 다양한 목적으로 점점 더 널리 활용될 전망입니다.

IT 업계에서 음성 기술은 새로운 것이 아닙니다. 하지만 음성 지원 스마트폰의 인기가 높아지고 보급이 확대됨에 따라, 더욱 자연스러운 인간-기계 상호작용에 대한 수요가 증가하면서 이는 많은 소프트웨어 기업들의 최우선 과제가 되었습니다.

음성 인식과 관련된 기술적 과제는 오랫동안 잘 알려져 왔으며, 수많은 기업들이 이를 해결하기 위해 노력해 왔습니다. 이러한 과제를 해결해 나가는 한, 음성 지원 기기 시장은 계속해서 성장할 것입니다.

연구 결과, 카도메(Kardome)가 까다로운 소음 환경에서도 95%의 음성 인식 정확도를 보여주는 것으로 나타났다

이번 연구 결과에 따르면, 카도메(Kardome)의 음성 사용자 인터페이스 기술은 소음이 가장 심한 환경에서도 기존의 음성 인식 알고리즘보다 우수한 성능을 발휘하는 것으로 나타났다.

이 연구는 가장 조용한 환경부터 가장 시끄러운 환경에 이르기까지 다양한 환경에서 ASR 성능을 분석하여 웨이크 워드 오인식률(FRR)과 응답 정확도(RAR)를 측정합니다.

우리는 선풍기, 에어컨, 아이들의 놀이 소리 등 배경 소음이 있는 일반적인 소음이 많은 거실 환경에 스마트 스피커를 배치하여 FRR과 RAR을 테스트했습니다. 또한, 소음이 심한 스마트 TV 옆에 스마트 스피커를 두고 테스트를 진행했습니다.

연구 자료 다운로드

 

이 글이 마음에 드셨나요?

최신 비디오 비즈니스 뉴스, 전략 및 인사이트를 이메일로 바로 받아보세요!

자세히 알아보기

음성 AI 수익화 격차