추론 AI 경쟁, 소형 칩으로 거대 성능 추구

[이데일리 김현아 기자] 거대언어모델(LLM) 개발 경쟁이 ‘추론 AI’ 중심으로 빠르게 확대되고 있다. 과거 GPT 시대에는 많은 데이터와 고사양 GPU를 기반으로 한 모델이 주를 이뤘다면, 최근에는 소량의 실제 데이터와 저사양 칩을 활용하는 추론 AI가 주목받고 있다. 이 새로운 접근법은 비용 절감과 효율성 측면에서 큰 가능성을 지닌다.

대표적인 추론 AI 모델은 중국의 딥시크가 개발한 ‘R1’이다. 딥시크의 R1은 엔비디아 저사양칩(H800) 약 2천 개로 오픈AI의 챗GPT 4o와 유사한 성능을 내며 주목을 받았다. 과거 오픈AI 모델은 엔비디아 고성능칩(H100) 1만 개 이상을 사용한 반면, 저사양 칩을 적게 사용한 덕분에 개발 비용을 크게 줄일 수 있었다.

추론 AI 경쟁은 미국의 주요 기업들이 주도하고 있다. 오픈AI는 31일(현지시간) ‘o3 미니’를 출시했고, 앨런인공지능연구소는 30일(현지시간) ‘툴루3(Tulu 3)’를 발표했다. 국내에서는 마음AI가 딥시크 기반의 설치형 모델(온프레미스 모델)을 개발 중에 있다.

추론 AI는 인간이 사고하며 결정을 내리는 방식과 유사하게 작동하며, 수학적 사고와 코딩 능력 등 복잡한 사고력을 요구한다. 네이버클라우드 하정우 AI이노베이션 센터장은 “이제 추론 AI 경쟁이 본격적으로 시작됐으며, 인간 능력을 넘어서기 위한 일반인공지능(AGI) 개발 속도가 빨라지고 있다”고 평가했다.

하지만 오픈AI의 추론 AI는 GPT와 비교했을 때 사용되는 데이터 양이 많다는 단점이 있다. 국내 스타트업 AI3의 표철민 사장에 따르면, “새로 출시된 o3 미니는 GPT-4보다 동일 수량(100만 토큰)을 입출력 시 56% 더 저렴하지만, 평균 출력 토큰 수가 추론(Reasoning) 토큰을 포함해 약 3~3.5배 증가하는 것으로 확인됐다”고 전했다. 즉, LLM 개발 비용은 적게 들지만, 서비스에서 AI가 중간에 생각하는 과정까지 과금되기 때문에 고객이 부담하는 비용은 더 커질 수 있다.

그럼에도 불구하고, 추론 AI는 상대적으로 저렴한 개발 비용과 높은 실용성 덕분에 빠르게 성장할 전망이다. 오픈AI는 지난해 12월 20일, o3 모델이 AIME(미국 초대형 수학경시대회)에서 96.7점을, GPQA 다이아몬드 벤치마크(박사급 과학지식 평가)에서 87.7점을 기록했다고 발표했다.AIME에서 o3의 성적은 지난해 인간 참가자 평균인 60점을 크게 웃도는 결과였으며, 기존 o1 모델(83.3점)보다 13.4점 상승한 점수다. 또한, GPQA에서 o3는 인간 전문가 평균인 70점(단일 분야 기준)을 초과하며, o1 모델(78점)보다 약 10점 상승한 성적을 거뒀다.