카도메 오토모티브, AI 기반 기술로 자동차 OEM 업체들이 차세대 음성 인터페이스를 개발할 수 있도록 지원

목차
목차
  • 목차 불러오는 중...
음성 비서 기술의 보급을 저해하는 가장 큰 장애물은 부족한 음성 인식 정확도입니다. 또한, 최상의 음성 사용자 경험을 제공하기 위해서는 지원 언어 범위, 사용자의 기대치, 보안, 비용, 그리고 배포 및 통합의 복잡성과 같은 과제들도 해결해야 합니다. Kardome은 이러한 다양한 과제를 해결하기 위해 기존 차량용 음성 인식 시스템을 획기적으로 개선하는 모빌리티 분야용 소프트웨어 솔루션을 개발했습니다.

자연어 처리와 머신러닝의 결합으로 차량 내 음성 상호작용 경험이 더욱 매끄럽고 직관적으로 발전함에 따라, 음성 비서는 현대 자동차 기술의 핵심 요소로 자리 잡았다.

그러나 이러한 많은 장점에도 불구하고, 여전히 해결해야 할 몇 가지 과제가 남아 있습니다. 음성 비서의 보급을 저해하는 가장 큰 장애물은 음성 인식 정확도가 부족하다는 점인데, 특히 소음이 많고 사람이 붐비는 차량 환경에서는 이 문제가 더욱 심각할 수 있습니다. 또한, 최상의 음성 사용자 경험을 제공하기 위해서는 지원 언어 범위, 사용자의 기대치, 보안, 비용, 그리고 배포 및 통합의 복잡성과 같은 과제들도 해결해야 합니다.

이러한 장애 요인들은 일반적으로 좁고 시끄러우며 사람들로 붐비는 자동차 내부 환경에서는 더욱 두드러집니다. 충분한 음성 인식 정확도를 보장하기 위해서는 차량용 음성 비서의 “청취 능력”을 향상시켜야 합니다.

차량용 음성 비서에게 인간 수준의 청취 능력을 제공하는 기술적 솔루션이 부족하기 때문에, 일부 자동차 제조사들은 각 좌석 근처에 마이크를 설치하고 있습니다. 이러한 마이크 네트워크는 부품 비용(BOM), 설치비, 유지보수 비용 측면에서 비용이 많이 듭니다. 그 결과, 대부분의 차량에서는 천장 수납공간에 단일 마이크 어레이를 사용하여 음성 비서 기능을 주로 운전자가 이용할 수 있도록 제한하고 있습니다.

카도메(Kardome)는 이러한 다양한 과제를 해결하기 위해 기존 차량용 음성 인식 시스템을 획기적으로 개선하는 모빌리티 분야용 소프트웨어 솔루션을 개발했습니다.

Kardome Automotive 카도메 오토모티브는 천장 수납공간에 설치된 단일 마이크 어레이로 최대 3열의 좌석에 앉은 6명의 승객의 음성을 포착할 수 있는 유일한 소프트웨어 솔루션입니다. 이 솔루션은 원하는 음성을 선별하고, 배경 소음과 에코를 줄여주며, 음성 생체 인식 기술을 통해 말하는 사람을 식별할 수 있습니다.

차량용 음성 기술을 위한 효과적인 음성 캡처의 과제 분석:

1. 차량 내 음향적 복잡성

자동차 내부는 대개 소음이 심한 환경입니다. 저속 주행이나 노면이 평탄할 때는 엔진 소리가 주를 이루지만, 고속 주행 시에는 풍절음이 더 두드러집니다. 도심 주행 시에는 타이어와 노면 사이의 마찰로 인한 도로 소음이 가장 큰 요인으로 작용합니다. 전기차는 엔진 소음이 적지만, 도로 소음과 풍절음은 여전히 음성 인식 시스템에 상당한 난제를 안겨줍니다.

게다가 공유 모빌리티와 자율주행의 확산으로 인해, 차량에는 종종 한 명 이상의 승객이 탑승하게 됩니다. 이는 대화 소음, 대화자들 간의 간섭, 그리고 승객들의 기기에서 발생하는 소음 또한 문제가 된다는 것을 의미합니다.

제조사들은 최상의 음성 사용자 경험을 제공하기 위해 차량 내 배경 소음과 여러 사람이 동시에 대화하는 문제를 해결해야 합니다. Voice.bot의 ‘차량용 음성 비서 소비자 수용 보고서’에 따르면, 운전자의 60%는 음성 비서의 품질이 구매 결정 과정에 영향을 미치는 요소라고 답했으며, 13%는 이를 매우 중요한 요소로 꼽았습니다.

게다가 음성 지원 기능을 기대하는 것은 운전자와 앞좌석 승객뿐만이 아닙니다. 차량 내 모든 승객이 원활한 음성 제어 기능을 기대하고 있습니다. 자율주행차의 보급이 확대됨에 따라, 운전자와 승객의 정확한 음성 상호작용에 대한 수요는 더욱 중요해질 것입니다.

2. 복합적인 통합 및 비용

빔포밍 기술을 활용하기 위해 자동차 제조사들은 안정적인 음성 사용자 인터페이스를 구현하기 위해 차량의 천장 내부에 승객 한 명당 하나씩 마이크 어레이를 설치해야 합니다. 각 마이크 어레이는 빔포밍 알고리즘을 사용하여 대상 화자의 목소리를 포착하는 동시에 주행 소음과 다른 화자들의 목소리를 최대한 차단합니다.

신뢰성을 높이기 위해 여러 대의 마이크를 설치하는 것은 상당한 비용이 듭니다. 부품 비용(BOM)과 설치 및 유지보수 비용이 비싸며, 차량 내부 공간에 맞춰 마이크 네트워크를 별도로 설계해야 하기 때문에 설계 비용도 많이 듭니다.

게다가 여러 개의 마이크 어레이를 설치하면 설계상의 제약이 따르고 차량의 미관을 해칠 수 있습니다. 예를 들어, 유리 지붕이 있는 차량의 경우 좌석 위에 마이크를 설치할 수 없습니다.

자동차 제조사들은 왜 천장 수납공간에 마이크 어레이 하나만 설치하는 것을 피하고, 빔포밍 기술을 활용해 차량 내 모든 좌석으로 음성 수신을 유도할까? 그 이유는 간단하다. 효과가 없기 때문이다.

빔포밍은 “도착 방향”이라 불리는 일차원 매개변수 집합을 사용하여 음향 환경을 모델링하는 기술입니다. 그러나 차량과 같은 밀폐된 환경에서는 음파가 직선 경로를 따라 이동하다가 차량의 창문과 패널에 반사되어, 결국 수백 개의 서로 다른 방향에서 마이크 어레이로 도달하게 됩니다.

빔포밍은 단일 경로에만 집중할 수 있어 실제 음향 환경을 정확하게 재현하지 못합니다. 따라서 화자가 마이크에서 50센티미터 이상 떨어져 있을 경우, 빔포밍 기술은 음성을 효과적으로 포착하지 못합니다.

카도메의 혁신

카도메(Kardome)의 혁신 기술 중 하나는 ‘스팟 포밍(spot-forming)’입니다. 이 독자적인 다차원 음향 분석 방식은 환경 내 각 음원과 마이크 어레이 간의 상대적 위치를 추출함으로써, 공간 내의 메아리 같은 공간적 단서를 해독합니다.

스팟 포밍(Spot-forming)은 사운드스케이프 내 각 음원이 생성하는 전체 반사 패턴을 추론할 수 있는 기술입니다. 이 기술은 음원(말하는 사람)이 별도의 행동을 취할 필요 없이 작동합니다. 환경의 기하학적 구조와 음원 및 기기 간의 상대적 위치가 반사 패턴을 결정합니다. 결과적으로, 스팟 포밍은 공간 내 위치에 따라 화자를 분류할 수 있는 위치 기반 기술입니다.

스팟 포밍(Spot-forming) 기술은 빔포밍의 본질적인 모델링 한계를 극복하고, 밀폐된 환경에서 다차원적인 사운드스케이프를 정확하게 복원합니다. 카도메(Kardome)의 솔루션은 차량 내 천장 수납공간에 설치된 단일 마이크 어레이만으로 차량 내 각 탑승자를 향해 음향 줌 효과를 구현할 수 있어, 자동차 환경에서 실질적인 이점을 제공합니다.

 

Kardome Automotive는 단 하나의 마이크 어레이로 3열에 걸쳐 있는 최대 6명의 개별 화자의 목소리를 포착할 수 있는 유일한 소프트웨어 솔루션입니다.

카도메 오토모티브

스팟 포밍 프레임워크를 기반으로, 카도메는 ‘카도메 오토모티브(Kardome Automotive)’라는 이름의 자동차 산업용 종합 엣지 오디오 스택을 개발했습니다 .

Kardome Automotive에는 다음과 같은 기능이 포함되어 있습니다: 

  • 스팟 포밍 기반 오디오 프론트 엔드(AFE): 스팟 포밍의 3D 모델은 잔향을 활용해 서로 다른 위치에서 발생하는 소리(음성)를 분리합니다. 이 AFE는 다중 채널 음향 에코 제거, 소음 저감, 음원(화자) 분리 기능을 포함하며, 차량 내에서 음성이 어디서 나오는지 파악할 수 있는 기능을 갖추고 있습니다.
  • 깨우기 단어: “Alexa”나 “Hey Siri”와 같은 특정 트리거 단어가 들릴 때만 청취를 시작하도록 설계된 독자적인 에지 인식 모델입니다.
  • 음성 생체 인식: 개인의 음성을 기반으로 사용자를 식별하거나 인증하는 독자적인 엣지 모델.

Kardome Automotive 소프트웨어 패키지는 스팟 포밍(spot-forming) 기술을 기반으로 하는 포괄적인 음성 스택입니다. 이 기술 위에 독자적인 음성 생체 인식 및 웨이크 워드 AI 모델이 적용되며, 이 모델들은 스팟 포밍 프레임워크 환경에서 작동하도록 설계 및 훈련되었습니다.

Kardome의 공간 청취 소프트웨어는 가장 까다로운 음향 환경에서도 기계가 화자의 목소리, 위치 및 말 내용을 정확하게 인식할 수 있도록 해줍니다. Speech AI 모듈을 AFE 훈련 과정에 통합함으로써, Kardome의 접근 방식은 AFE와 Speech AI를 각각 별도로 개발하는 분산형 시스템에 비해 뛰어난 성능을 제공합니다.

Kardome Automotive는 다음과 같은 차량 내 사용 사례를 지원합니다: 

  • 의사소통
  • 핸즈프리 통화
  • 차량 내 통신, 안내 방송 모드 전용
  • 음성 인공지능(AI)
  • 깨우기 단어 인식
  • 음성 인식
  • 자동 음성 인식: 타사 ASR 엔진과의 연동을 통해.

AFE 모듈은 두 가지 모드로 작동합니다. 하나는 음성 AI 모듈에 입력을 제공하는 것이고, 다른 하나는 핸즈프리 전화(HFT)와 같은 통신 모듈에 입력을 제공하는 것입니다. 음성 AI에서 AFE는 대상 화자의 음성을 분리하여 음성 인식률을 향상시키며, 두 번째 모드에서는 출력 시 음성 품질을 최적화합니다. 이 시스템은 두 시나리오 모두에서 성능을 극대화하기 위해 이러한 매개변수를 자동으로 전환합니다.

아래는 8개의 MEMS 마이크로폰으로 구성된 마이크로폰 어레이를 사용하는 AFE 모듈의 블록 다이어그램입니다. 이러한 시스템은 천장 수납공간에 설치된 단일 마이크로폰 어레이를 통해 3열의 좌석에 걸쳐 최대 6개의 음향 포착 지점을 확보합니다.

하드웨어와의 원활한 통합

Kardome Automotive는 인포테인먼트 시스템 펌웨어에 통합된 소프트웨어 솔루션입니다.

OEM 업체는 이 소프트웨어를 주 애플리케이션 프로세서(AP)에 리눅스 라이브러리 또는 안드로이드 애플리케이션 형태로 구현할 수 있습니다. 또는 퀄컴의 헥사곤(Hexagon) DSP나 삼성의 HiFi DSP와 같이 AP 칩에 통합된 전용 DSP를 사용하거나, 외부 전용 칩을 통해 Kardome Automotive를 구현할 수도 있습니다. Kardome Automotive 소프트웨어를 적용할 경우, 음향 에코 제거(Acoustic Echo Canceller) 기능을 구현하기 위해 오디오 출력 기준 신호에 접근할 수 있어야 합니다.

Kardome Automotive는 4개 이상의 마이크로 구성된 모든 마이크 어레이와 호환됩니다. 사용되는 마이크 소자는 일반적으로 단순한 MEMS 마이크입니다. Kardome Automotive용 일반적인 마이크 어레이는 전체 크기가 20 x 50 x 5mm인 8개의 MEMS 마이크로 구성됩니다. 또한 앞서 언급한 바와 같이, OEM 업체들은 일반적으로 이러한 마이크 어레이를 천장 수납공간에 배치하고 A2B 오디오 버스를 통해 중앙 인포테인먼트 시스템과 연결하는 것을 선호합니다.

결론: 카도메 오토모티브의 차량용 음성 기술 혁명

카도메 오토모티브(Kardome Automotive)는 차량 내 음성 기술 혁신을 선도하고 있습니다. 이 회사의 스팟 포밍(spot-forming) 음성 AI 기술은 기존 음성 시스템의 한계를 극복하여, 모든 승객에게 맞춤형 음성 인터페이스를 제공합니다. 카도메의 혁신적인 접근 방식은 정밀하고 정확한 음성 인식을 보장함으로써, 진정으로 연결되고 개인화된 운전 경험을 실현하는 길을 열어줍니다.

이 글이 마음에 드셨나요?

최신 비디오 비즈니스 뉴스, 전략 및 인사이트를 이메일로 바로 받아보세요!

자세히 알아보기

음성 AI 수익화 격차