카카오 생성형AI모델 '카나나'…"'한국어', 글로벌 모델 압도한 성능"

이프카카오2024 컨퍼런스
김병학 카나나알파 성과리더, LLM부터 동영상 생성 모델 공개
멀티모달 모델 "영어는 근소한 차이로 앞서고, 한국어는 월등"
"기술 가치를 서비스로 연결해 사용자 문제 해결할 것"

등록 2024-10-23 오후 12:47:05

수정 2024-10-23 오후 2:05:19
가 가

[이데일리 최정희 기자] 카카오가 22일 ‘이프카카오(ifkakao)2024’ 컨퍼런스에서 ‘카나나(kanana)’라는 이름의 인공지능(AI)짝꿍 앱을 공개한 데 이어 23일 똑같은 이름의 ‘카나나’ 생성형AI모델 시리즈를 공개했다.

김병학 카나나알파 성과리더는 이날 경기도 용인 카카오AI캠퍼스에서 열린 ‘이프카카오2024’ 컨퍼런스에 참석해 △언어모델 △멀티모달 언어모델 △비주얼 생성 모델 △음성모델 등 총 4가지 부문의 생성형AI 모델을 공개했다.

김병학 카나나알파 성과리더가 23일 경기도 용인 카카오AI캠퍼스에서 열린 ‘이프카카오2024’ 컨퍼런스에서 발언을 하고 있다.(출처: 카카오)

◇ 카카오 AI모델들, ‘카나나’로 통일

김 성과리더는 “앞으로 카카오의 AI모델과 서비스는 모두 ‘카나나’라는 통합 브랜드로서 일관된 경험과 새로운 가치를 제공하게 될 것”이라며 “기존에 공개된 코지피티(KoGPT), 칼로, 허니비와 같은 카카오AI모델에서 고도화된 기술을 더 적용한 카나나 모델 패밀리를 새롭게 개발했다”고 밝혔다. 이어 “카나나 모델은 사람처럼 보고 듣고 말하는 모델을 목표로 개발됐다”며 “사용자의 일상을 옆에서 도와주는 카카오 서비스에 적용하려고 한다”고 덧붙였다.

우선 언어모델은 용량에 따라 △카나나 나노(초경량 언어모델) △카나나 에센스(중소형 언어모델) △카나나 플래그(고성능 초거대 언어모델)로 나뉘어진다.

멀티모달 언어모델은 △오디오 언어모델(카나나-a) △이미지/비디오 언어모델(카나나-v) △통합 멀티모달 언어모델(카나나-o)로 구성되며 비주얼 생성 모델은 △비디오 생성 모델(키네마) △개인화된 이미지 생성모델(콜라주)로 구성된다. 음성모델은 △음성인식 모델(카브) △음성합성모델(캐스트)로 나뉜다.

김 성과리더는 “카나나 모델의 핵심은 라마 등 글로벌 선두주자 모델들과 비슷한 성능을 보이는 고성능 모델인데다 한국어 처리는 압도적인 성능을 보이고 있어 국내 시장 뿐 아니라 글로벌 시장에서도 경쟁력을 가진다고 생각한다”고 밝혔다. 또 “카나나는 저작권과 개인정보 이슈를 해결한 데이터만 학습해 학습 과정에서의 투명성을 확보했고 이를 기반으로 지속적으로 발전할 수 있는 견고한 기반을 마련했다”며 “모델 개발 단계에서부터 서비스 목적에 맞게 학습 과정을 최적화했기 때문에 처리 시간, 운영 비용을 효율화했다”고 설명했다.

김 성과리더는 언어모델 중 카나나 에센스에 대해 “글로벌 성능을 가진 유사한 사이즈와 비교해 모델 성능을 평가했는데 평균적으로 유사하거나 더 월등했다”며 “특히 한국어 성능에 대해선 다른 모델 대비 월등하다. 라마 3.1보다 더 좋은 성능을 갖고 있다”고 밝혔다. 또 검색 기반 생성모델(RAG)과 펑션콜(Function call, 함수호출) 부문에선 GPT4.o 대비로는 92%의 성능을 보유하고 있고 요약에선 GPT4.o보다 더 뛰어난 106%의 성능을 보였다.

김 성과리더는 “가장 규모가 큰 ‘플래그’ 모델은 현재 성능 평가를 진행하고 있다”며 “나노, 에센스 모델을 만들면서 성능 좋은 모델을 만들 수 있는 노하우를 가지게 됐다. 이것은 글로벌 경쟁력을 가진 모델을 만들 수 있다는 뜻”이라고 강조했다. 카카오는 펑션콜을 개발하면서 펑셩콜 성능을 평가하는 데이터셋 ‘펑션챗-벤치’를 오픈소스로 공개하기도 했다.

◇ ‘키네마’ 모델 통해 ‘비디오 생성’ 쉽게

김 성과리더는 통합 멀티모달 언어모델(카나나-o)을 공개하며 음성을 입력할 경우 음성으로 답변하는 기술을 사례로 보여줬다. 그는 “카나나-o모델은 영어에선 글로벌 모델과 비교해 근소한 차이로 우위를 보였고 한국어에선 압도적인 성능을 보였다”고 설명했다. 이어 “카나나-o모델은 이미지, 오디오 뿐 아니라 영상 데이터를 이해하고 이미지와 영상을 생성할 수 있는 통합 멀티모델 언어모델 구조로 진화할 예정”이라고 덧붙였다.

비디오 생성모델인 키네마 모델에 대해선 “텍스트 입력부터 이미지, 개인 프로필 사진까지 다양한 입력을 처리하는 형태로 개발하고 있다”며 “이때 입력된 이미지를 바탕으로 영상을 생성하는 것을 넘어 마우스 조작만으로 카메라와 캐릭터 움직임을 쉽게 제어할 수 있도록 해 풍부하고 다채로운 비디오 콘텐츠를 제작할 수 있을 것”이라고 밝혔다.

김 성과리더는 “카카오는 글로벌 대표 모델들과 동등한 수준의 AI모델 성능을 보유하게 됐지만 더 중요한 것은 기술의 가치가 서비스로 연결돼 사용자 문제를 직접 해결해주고 실질적인 가치를 제공할 수 있는 실용적인 서비스를 구현해야 된다”고 밝혔다. 이어 “AI시장에서 카카오는 글로벌 경쟁력을 확보한 ‘카나나 모델’을 바탕으로 카카오AI 서비스 적용 뿐 아니라 내부적으로 직원들의 생산성을 높이기 위한 AI 네이티브 컴퍼니(AI Native Company, AI를 핵심 기술로 삼아 모든 비즈니스 활동과 운영을 수행하는 회사)를 만들어가는 기반을 확대하겠다”고 덧붙였다.