카이스트 연구팀, 영상 몇 개로 인간 판단 기준 배우는 피지컬AI 기술 개발

카이스트 유창동 교수 연구팀. 왼쪽부터 유창동 교수, 가운데 뒤편의 Luu Minh Tung(루 민 퉁) 박사과정(제1저자), 오른쪽 앞편의 김환희 석사과정(제2저자). (사진=카이스트)

[이데일리 한광범 기자] 로봇이 인간의 의도를 이해하고 스스로 올바른 행동을 선택하는 시대를 앞당길 핵심 기술이 국내에서 나왔다. 단 몇 개의 영상만으로 AI가 인간의 판단 기준을 스스로 학습하는 기술이 개발되면서, 그동안 피지컬 AI 상용화의 걸림돌로 꼽혔던 난제 해결에 청신호가 켜졌다.

카이스트(KAIST)는 전기 및 전자공학부 유창동 교수 연구팀이 수천~수만 건의 인간 평가 데이터 대신 단 몇 개의 선호 영상만으로도 AI가 인간의 의도와 판단 기준을 학습할 수 있는 새로운 기술인 ‘VOTP(Video-based Optimal TransPort Preference)’를 세계 최초로 개발했다고 10일 밝혔다.

최근 AI 기술은 글을 쓰고 그림을 그리는 생성형 AI를 넘어 실제 기계를 움직이고 현실 세계에서 행동하는 ‘피지컬 AI’ 시대로 빠르게 진화하고 있다. 공장에서 위험한 작업을 대신 수행하는 로봇, 스스로 도로 상황을 판단하는 자율주행차, 정교한 수술을 수행하는 의료 로봇 등이 대표적인 사례다.

하지만 피지컬 AI의 실용화를 위해서는 반드시 넘어야 할 장벽이 있었다. 기계가 수행한 행동이 인간의 의도에 맞는지, 어떤 행동이 더 바람직한지를 판단하는 인간 수준의 평가 기준을 학습하는 문제다. 자율주행차가 복잡한 교차로를 통과하거나 수술 로봇이 봉합을 할 때 AI는 수많은 선택지 가운데 가장 적절한 행동을 골라야 한다. 이를 위해서는 인간의 선호와 판단 기준이 반영된 ‘보상함수(Reward Function)’가 필수적이다.

그러나 지금까지는 이를 구축하기 위해 사람이 수천~수만 개의 행동 데이터를 직접 평가해야 했고, 막대한 시간과 비용이 소요됐다. 대형 언어 모델(LLM) 등을 활용해 평가 과정을 자동화하려는 시도도 있었으나, 로봇의 미세한 움직임 차이를 언어로 온전히 규정하기 어렵고 높은 호출 비용이 발생하는 한계가 뚜렷했다.

VOTP 개요도. (카이스트 제공)

연구팀은 사람이 몇 번의 시범만 보고도 새로운 일을 배우는 방식에 주목했다. 말로 설명하는 것보다 좋은 시범과 나쁜 시범을 눈으로 비교해 보여주는 것이 훨씬 직관적이고 정확하다는 점에 착안해 VOTP를 개발했다.

연구팀이 개발한 VOTP는 사람이 10개 내외의 좋은 사례와 나쁜 사례 영상만 제공하면, 최신 비디오 AI의 시각적 이해 능력을 바탕으로 행동의 미세한 동적 차이를 포착한다. 이후 데이터 간의 관계를 수치화하는 ‘최적 전송(Optimal Transport)’ 수학 기법을 적용해 수만 개의 비디오에 대해 자동으로 선호도를 유추하고 가상의 보상을 생성한다. 기존처럼 방대한 양의 데이터를 사람이 일일이 평가하지 않아도 AI가 인간의 판단 기준을 이해하고 다양한 상황으로 확장해 학습할 수 있는 길을 연 것이다.

이러한 방식은 피지컬 AI 개발에 필요한 인간 피드백과 데이터 구축 비용을 크게 줄일 수 있을 것으로 기대된다. 기업들이 새로운 로봇이나 자율주행 시스템을 개발할 때 전문가가 현장 영상 몇 개만 선별해 평가를 보여주면, AI가 이를 바탕으로 수많은 현장 영상을 보고 스스로 분석해 좋고 나쁜 행동을 구별하게 된다. 이를 통해 최적의 동작을 학습한 로봇은 개발 기간과 비용을 획기적으로 단축하며 바로 실무에 투입될 수 있다.

해당 기술은 로봇 팔 제어, 휴머노이드 로봇, 자율주행차, 스마트팩토리, 드론, 수술 로봇뿐 아니라 컴퓨터를 직접 조작하는 AI 에이전트까지 폭넓게 적용 가능하며, 인간의 의도와 만족도를 학습해야 하는 모든 피지컬 AI 시스템의 핵심 기반 기술로 활용될 수 있을 것으로 전망된다.

VOTP 연구이미지(AI 생성). (카이스트 제공)

연구팀은 초기 실험 단계에서 이론과 달리 실제 환경에서 학습이 불안정하게 작동하는 등 수많은 시행착오를 거쳤으나, 연구를 지속해 일관되고 안정적으로 학습하는 결과물을 도출해냈다. 연구팀은 향후 관련 기업들과의 산학 협력을 통해 제조 공정 및 서비스 로봇 분야에 이 기술을 시범 도입하여 상용화를 앞당길 계획이다.

유창동 교수는 “피지컬 AI의 핵심은 기계가 인간의 의도를 이해하고 올바른 행동을 선택하도록 만드는 것”이라며 “VOTP는 소수의 영상만으로 인간의 판단 기준을 학습할 수 있어, 로봇이 사람처럼 판단하는 시대를 앞당길 핵심 기술”이라고 말했다. 연구팀은 나아가 시각-언어-행동 모델(VLA)과 같은 범용 로봇 AI의 학습 수준을 높이는 것을 핵심 목표로 두고 있다.

한편 전기 및 전자공학부 루민 퉁(Luu Minh Tung) 박사과정 학생이 제1저자로, 김환희 석사과정 학생이 제2저자로 참여한 이번 연구 논문은 다음달 서울 코엑스에서 개최되는 세계 최고 권위의 AI 학회인 ICML(International Conference on Machine Learning) 2026에 채택됐다. 특히 전체 제출 논문 2만 3918편 가운데 상위 0.7%인 168편에만 주어지는 구두(Oral) 발표 논문으로 선정되며 연구의 혁신성과 학술적 파급력을 세계적으로 인정받았다.

이번 연구는 과학기술정보통신부 재원으로 정보통신기획평가원(IITP) 및 한국연구재단(NRF) 등의 지원을 받아 수행됐다.