기기가 사람처럼, 아니 그보다 더 잘 듣게 될 때
세상은 참 시끌벅적하네요
기존의 음성 사용자 인터페이스는 실제 환경에서 제대로 작동하지 못하는 경우가 많습니다. 배경 소음, 겹치는 대화, 예측 불가능한 상황 등으로 인해 음성 인식 품질이 저하되어 음성 인식 정확도가 떨어지고 사용자가 불편을 겪게 됩니다.
이제야 모든 것이 명확해진다
공간 청취 AI는 Kardome의 솔루션과 제품을 뒷받침하는 핵심 기술입니다. 이 기술은 음성 UI가 사용자의 말을 전례 없는 정밀도로 인식할 수 있게 해주는 획기적인 기능을 제공합니다.
기기가 사람처럼 소리를 듣게 하기
공간 청취 AI는 기기가 주변 환경을 정밀하게 감지하고 인식할 수 있도록 지원합니다. 이 기술은 3차원 음향 환경을 분석하여 사운드스케이프를 매핑하고, 각 소음원을 분리하며 여러 화자의 목소리를 구별함으로써, 기기가 주변 환경의 맥락에 따라 유연하게 대응할 수 있게 합니다. 또한 이 기술은 전적으로 기기 내에서 실행되므로, 빠른 처리 속도와 개인정보 보호를 보장합니다.
공간 청각 AI 제품
사운드맵
주요 제품인 SoundMap은 말소리와 소리가 어디서 나는지 공간적으로 감지합니다. 이 제품은 움직이는 소음원을 추적하고, 화자의 목소리를 별도의 오디오 스트림으로 분리하여 인터뷰 모드를 지원하며, 원하는 구역에서만 나오는 말소리만을 포착합니다.
ClearZone NS
주변 소음을 걸러내어 목소리가 선명하게 전달되도록 하는 2단계 소음 억제 엔진입니다.
갑작스러운 끼어들기
원치 않는 주변 소음을 억제하는 실시간 다중 채널 음향 에코 제거 기능을 제공하여, 배경에서 시끄러운 음악이 재생되고 있는 상황에서도 기기가 사용자의 목소리를 명확하게 인식할 수 있습니다.
고급 음성
ASR(음성 인식), 핸즈프리 통화 및 기타 음성 지원 애플리케이션을 위해 음성을 최적화하는 일련의 음성 처리 알고리즘입니다.
더 많은 정보를 확인하세요
궁금한 점이 있으신가요? 저희가 답변해 드립니다.
공간 청각 AI란 무엇인가요?
스페이셜 히어링 AI(Spatial Hearing AI)는 카도메(Kardome)의 핵심 음향 클러스터링 기술입니다. 방향성 ‘빔’에 초점을 맞추는 기존의 빔포밍 기술과 달리, 스페이셜 히어링 AI는 음향 환경의 동적인 3D 지도를 생성합니다. 이 기술은 음원을 공간 내의 개별적인 객체로 간주하여, 단순히 방향뿐만 아니라 정확한 위치(깊이와 높이)를 기반으로 소음과 음성을 분리하고 여러 화자를 구별해 냅니다.
“3D 음향 분석”이란 무엇을 의미하나요?
단순히 소리 방향만 감지하는 일반적인 음성 기술과 달리, 카도메(Kardome)의 공간 청취 AI는 전체 3D 음향 환경을 분석합니다. 이 기술은 깊이, 거리, 높이를 파악합니다. 이를 통해 시스템은 환경 내의 화자들을 구분할 수 있는데, 이는 기존의 빔포밍 기술로는 효과적으로 수행할 수 없는 기능입니다.
공간 청취 AI는 기존의 빔포밍과 어떻게 다른가요?
기존의 빔포밍 기술은 일반적인 방향에 초점을 맞추지만, 반사음이나 동일한 “빔” 내에 여러 명의 화자가 있을 경우 정확도를 확보하기 어렵습니다. 반면, 스페이셜 히어링 AI는 주변 환경의 완벽한 3D 음향 지도를 생성합니다. 이 기술은 음원을 실시간으로 공간적으로 분리하여, 잔향이 심하거나 사람이 많은 공간에서도 특정 위치에 있는 특정 화자의 목소리를 선명하게 구분해 내며, 방향성 빔포밍보다 훨씬 더 높은 정확도를 제공합니다.
이 기술은 여러 화자를 구분할 수 있습니까?
네. 공간 청취 AI의 핵심 장점은 모든 목소리를 3차원 공간 내의 독립된 객체로 인식한다는 점입니다. 음원을 공간적으로 분리함으로써, 이 시스템은 현재 말하고 있는 사람의 목소리를 배경 소음이나 주변에서 대화하는 다른 사람들의 목소리로부터 명확히 구분해 내어, 음성 비서가 의도한 명령에만 반응하도록 보장합니다.
스피커가 방 안을 돌아다닐 때도 공간 청취 기술이 제대로 작동하나요?
물론입니다. 고정형 지향성 마이크와 달리, 당사의 공간 청취 AI 알고리즘은 음향 환경을 실시간으로 지속적으로 추적합니다. 이를 통해 시스템은 사용자를 ‘포착’하여 사용자가 방 안을 이동할 때 목소리를 따라가며, 신호 끊김 없이 일관된 음성 캡처를 유지할 수 있습니다.
큰 소리로 음악을 재생 중일 때도 기기가 명령을 인식할 수 있나요?
네. 이 기술에는 고급 음향 에코 제거(AEC) 기능이 포함되어 있습니다. 이 기능은 기기에서 나오는 소리(큰 음악 소리나 내비게이션 안내음 등)를 효과적으로 억제하여, 사용자가 먼저 볼륨을 낮출 필요 없이 시스템이 사용자의 호출어나 명령을 명확하게 인식할 수 있도록 합니다.
이 기술은 하드웨어에 의존적인가요?
아니요. Kardome의 공간 청취 AI는 하드웨어에 구애받지 않습니다. 이 기술은 표준 저가형 마이크를 사용하여 고성능 결과를 제공하며, 다양한 프로세서 아키텍처(ARM, DSP 등)와 원활하게 통합되어 OEM 업체들이 성능을 향상시키는 동시에 BOM 비용을 절감할 수 있도록 돕습니다.
처리는 클라우드에서 이루어지나요, 아니면 엣지에서 이루어지나요?
이 기술은 기기 내 처리를 위해 설계되었습니다. 이러한 접근 방식은 원시 오디오 데이터가 기기 내에서 처리되어 외부로 유출되지 않으므로, 실시간 상호작용 시 지연 시간을 완전히 없애고 데이터 사용량을 줄이며 사용자 개인정보를 보호합니다.