X

“텍스트·이미지·영상·음성 한 번에”…서울대, ‘옴니모달 AI’ 벽 넘었다

이 기사 AI가 핵심만 딱!
애니메이션 이미지
윤정훈 기자I 2026.04.28 15:57:27

도재영 서울대 교수 인터뷰
텍스트·이미지·영상·음성 ‘동시 생성’
네이버·中 모델 능가…속도 5배↑, 효율·성능 모두 잡아
의료·제조 현장 적용...로보틱스 개발
'독파모 SKT 정예팀서 선행연구 담당
“대학·연구기관, 국가 AI 개발 핵심 축 돼야”

[이데일리 윤정훈 기자] 서울대 관악산 등산로 초입, 교내에서 가장 높은 곳에 위치한 공과대학 301동 8층 연구실. 이곳의 불은 하루 24시간 꺼지지 않는다. 도재영 전기정보공학부 조교수와 11명의 대학원생이 1년 넘게 매달린 끝에 새로운 인공지능(AI) 모델을 완성했기 때문이다.

연구팀이 개발한 모델은 텍스트·이미지·비디오·오디오를 하나로 통합해 이해하고 생성하는 ‘옴니모달’ 디퓨전 AI, ‘다이닌-옴니(Dynin-Omni)’다. 서로 다른 형태의 데이터를 하나의 모델이 동시에 처리할 수 있다는 점에서 기존 멀티모달 AI보다 한 단계 진화한 기술로 평가된다.

최근 연구실에서 만난 도 교수는 “이번 연구의 핵심은 AI가 인간처럼 시각·청각 등 여러 감각 정보를 하나의 ‘뇌’로 통합해 처리한다는 데 있다”며 “이 기술을 활용하면 AI 비서가 음성뿐 아니라 주변 상황까지 함께 이해하고 즉각 반응할 수 있어 서비스 속도와 효율성이 크게 높아질 것”이라고 설명했다.

도재영 서울대 전기전자공학부 조교수가 28일 서울대 공학관 교수실에서 진행한 이데일리와 인터뷰에서 기념촬영을 하고 있다.(사진=윤정훈 기자)
챗GPT도 못한 ‘동시 생성’의 벽 넘다

기존 AI는 글은 언어모델이, 그림은 이미지 모델이 각자 처리하는 구조였다. 챗GPT 같은 최신 서비스조차 내부적으로는 여러 모델을 연결한 형태에 가깝다. 도 교수는 “예를 들어 아이가 쓴 일기를 보고 AI가 네 컷 만화를 그리고, 각 컷이 소리가 나오는 비디오이면서 설명까지 동시에 달리게 하는 작업은 지금 어떤 모델도 하지 못했는데, 다이닌-옴니는 이를 구현할 수 있다”고 했다.

다이닌-옴니는 이 한계를 극복했다. 연구팀은 전체 맥락을 양방향으로 활용하고, 결과를 반복 정제하는 ‘마스크 디퓨전(Mask Diffusion)’ 아키텍처를 도입했다. 그 결과, 텍스트 추론 및 멀티미디어 이해·생성 등 10개 이상의 글로벌 성능 지표에서 네이버 ‘하이퍼클로바X-옴니’나 중국의 ‘큐웬2.5-옴니’ 등 주요 모델을 상회하는 성과를 거뒀다.

특히 생성 속도는 기존 모델 대비 4~5배 가량 향상됐다. 최근 공개된 큐웬3.5-옴니와 같은 수천억 개 파라미터 기반의 초대형 모델과 대등한 성능을 입증하며, 효율적인 규모로도 통합적 이해가 가능함을 보여줬다는 평가다.

도 교수는 “말하지 않아도 표정만으로 상대의 의도를 파악하는 식의 ‘통합적 이해’가 가능해진다”며 “이것이 단순한 기술 업그레이드를 넘어선 패러다임의 전환”이라고 덧붙였다.

Dynin-Omni의 옴니모달 이해 및 생성 성능 평가(사진=서울대)
도재영 교수의 시선은 연구실을 넘어 실제 산업 현장으로 향하고 있다. 그는 현재 서울대 의대와 함께 수술 보조 로봇 프로젝트를 진행 중이다. 도 교수는 “의사를 대체하는 것이 아니라, 조명을 비추거나 조직을 잡아주는 보조 인력을 로봇이 대신해 의료 공백을 메우는 것이 목표”라고 설명했다.

제조 분야 적용도 본격 준비 중이다. 단순히 기술을 공급하는 데 그치지 않고, 엔지니어를 현장에 직접 투입해 문제를 먼저 파악하는 이른바 ‘팔란티어식 접근’을 지향한다. 도 교수는 “제조와 의료 데이터는 국가 자산이자 주권과 직결된 영역”이라며 “글로벌 기업이 쉽게 접근하기 어려운 만큼, 한국 연구진과 기업이 주도해야 한다”고 강조했다.

이를 위해 연구팀은 차세대 옴니모달 모델 고도화와 함께 피지컬 AI 분야인 ‘다이닌-로보틱스’ 개발에도 속도를 내고 있다.

“대학이 국가 AI 경쟁력의 심장 되어야”

미국 마이크로소프트와 아마존에서 13년간 재직한 뒤 2024년 서울대에 부임한 도 교수는 한국 대학 연구의 과제로 ‘논문 중심 문화’와 ‘자원 지원의 단절’을 꼽았다.

그는 “중국 칭화대나 상하이 AI 실험실처럼 대학이나 연구기관이 파운데이션 모델을 직접 설계하고 시리즈로 발전시키며 국가 경쟁력을 견인해야 한다”며 “이를 위해서는 GPU(그래픽처리장치) 자원의 지속적인 지원이 필수적”이라고 제언했다.

실제 이번 성과는 과학기술정보통신부와 정보통신산업진흥원(NIPA)의 ‘고성능 컴퓨팅 지원 사업’을 통한 GPU 인프라 지원이 마중물이 됐다.

도재영 서울대 전기전자공학부 조교수가 이데일리와 인터뷰에서 '다이닌-옴니' 모델에 대해 설명하고 있다.(사진=윤정훈 기자)
도재영 교수는 정부의 인공지능 인프라 지원이 연구 환경을 크게 바꿨다고 평가했다. 그는 “정부의 GPU 지원이 거대언어모델(LLM) 개발의 물꼬를 터줬다”며 “공공 인프라를 통해 대학에서도 글로벌 수준의 모델을 설계할 수 있다는 점을 입증했다”고 말했다.

민간과의 협력도 강화하고 있다. 현재 SK텔레콤(017670)이 주도하는 독자 AI 파운데이션 모델 컨소시엄에 참여 중인 그는 “산업계를 후방에서 지원하는 동시에 현장과 긴밀히 교류하며 연구의 실효성을 높이고 있다”고 설명했다.

인재 양성의 중요성도 강조했다. 서울대는 대학원생뿐 아니라 학부생이 AI 연구 최전선에 참여할 수 있는 ‘김재철 AI 과정’을 이번 2학기부터 본격 운영할 예정이다.

도 교수는 “한정된 자원 안에서 무엇을 만들지 결정하는 창의적 기획력이 무엇보다 중요하다”며 “학부 단계부터 실전 연구에 참여하는 경험이 쌓인다면 더욱 다양한 혁신 사례가 나올 것”이라고 전망했다.

이 기사 AI가 핵심만 딱!
애니메이션 이미지지

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지