"사투리도 이해"…카카오, 카나나-o 성능 공개
벤치마크서 글로벌 모델과 견줘 경쟁력 있는 결과 나와
2025-05-01 13:51:13 2025-05-01 13:51:13
[뉴스토마토 이지은 기자] 카카오(035720)가 추후 성장동력이 될 인공지능(AI) 모델 카나나의 성능을 공개했습니다. 이미지 이해능력과 고도화된 오디오 능력을 갖은 것은 물론, 대규모 한국어 데이터셋을 활용해 사투리까지 이해할 수 있는 능력을 갖춘 것으로 확인됐습니다. 
 
카카오는 공식 테크 블로그를 통해 1일 통합 멀티모달 언어모델 카나나(Kanana)-o와 오디오 언어모델 카나나-a 성능과 개발 후기를 공개했습니다.
 
카나나-o는 국내 최초로 텍스트, 음성, 이미지 등 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 AI 모델입니다. 
 
카나나-o 성능. (자료=카카오)
 
이용자는 텍스트·음성·이미지 중 어떠한 조합으로 질문을 입력하더라도 카나나-o를 통해 처리할 수 있고, 상황에 맞는 텍스트나 자연스러운 음성 입력에도 응답을 생성해낼 수 있습니다. 
 
카카오는 서로 다른 모델을 합치는 모델 병합 기술을 기반으로 이미지 처리에 특화된 카나나-v와 오디오 이해·생성에 특화된 카나나-a 모델을 통합해 단기간 내에 효율적으로 카나나-o를 개발했다고 설명했습니다. 
 
특히 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조와 억양, 어미변화 등을 정밀하게 반영했다고 강조했습니다. 카나나-o는 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있습니다. 
 
카카오에 따르면 카나나-o는 한국어·영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했고 한국어 벤치마크에서는 높은 우위를 보였습니다. 감정 인식 능력에서는 한국어와 영어 모두에서 큰 우위를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증한 셈입니다. 
 
김병학 카카오 카나나 성과 리더는 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했습니다. 
 
이지은 기자 jieunee@etomato.com
 
이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 김나볏 테크지식산업부장이 최종 확인·수정했습니다.

ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지

지난 뉴스레터 보기 구독하기
관련기사
0/300

뉴스리듬

    이 시간 주요 뉴스

      함께 볼만한 뉴스