센터는 AI 반도체 개발의 핵심 과제였던 소프트웨어와 하드웨어의 동시 최적화 문제를 일정 부분 해소하고, 가우디 기반 추론 환경을 실제 서비스 수준까지 구현했다고 밝혔다. 특히 메타의 Llama(7B, 70B) 모델을 활용한 테스트에서, 엔비디아 A100 대비 최대 1.2배 성능을 기록한 점이 주목된다.
다만 프로젝트는 3년 계획에도 불구하고 1차 연도 이후 2차 사업이 아직 확정되지 않았으며, 국가AI컴퓨팅센터가 엔비디아 GPU 1만 장을 우선 구매한 점은 가우디 기반 대안 생태계 확산의 구조적 한계로 지적되고 있다. 인텔 내부의 리더십 교체와 연 단위 계약 구조로 인해 내년도 예산 및 협력 체계는 아직 확정되지 않았다.
|
|
이동수 네이버클라우드 AI컴퓨팅솔루션 전무는 발표에서 “AI 반도체의 핵심은 성능이 아니라 얼마나 폭넓은 활용사례와 오픈소스 생태계를 구축하느냐”라며 “진정한 에코시스템은 사용자 중심으로 형성돼야 한다”고 강조했다.
네이버는 인텔과 협력하여 가우디(Gaudi2) 기반 추론 성능과 활용성을 극대화하는 SW 최적화에 집중했고, KAIST·SNU·POSTECH 등 연구기관은 각각의 AI 실험에 가우디 서버를 활용하며 실증 기반 연구를 추진했다.
“A100 뛰어넘는 추론 속도”
공동연구의 대표 성과는 ‘가우디 기반 거대언어모델(LLM) 추론 시스템’의 구현이다. 스퀴즈비츠와 협력해 개발한 vLLM 시스템은 메타의 라마(Llama) 모델(7B, 70B 기준)에서 엔비디아 A100 대비 최대 1.2배의 토큰 처리 성능을 기록하며 우위를 입증했다.
이 시스템은 네이버클라우드 데이터센터 내 실제 서비스 환경에서 테스트되었으며, 롱컨텍스트, 멀티-LoRA, 프리픽스 캐싱 등 복잡한 요구사항에서도 안정성을 확보한 상태다. 현재는 실제 업무 적용을 위한 후속 검증이 진행 중이다.
15편 논문, 30개 오픈소스… 기술 내재화 착수
KAIST 성민혁 전산학부 부교수 주도하에 진행된 공동연구에서는 총 22개 연구실이 참여해 △AI 반도체 성능 검증 △3D 렌더링 가속화 △파인튜닝(미세조정) 최적화 등 다방면의 성과를 도출했다.
성 교수는 “ICLR, ISCA, CVPR, EMNLP 등 주요 국제학회에 15편 이상 논문이 발표되었고, 30개 이상의 깃허브 오픈소스가 공개되며 생태계 확장에도 기여하고 있다”고 밝혔다. 김정호 KAIST 교수는 “학생들이 가우디2를 이용해 연구하면서 만족하고 있다”고 했다.
이동수 네이버클라우드 전무는 “(카이스트, 포스텍, 서울대 등의)22개 과제에 인텔의 GPU 서버를 22개 드렸다”면서 “6개월 조금 넘은 시간인데 질 높은 논문이 마구 쏟아지는 것을 보고 마음이 조금 아팠다”면서 “핵심은 풍부한 활용사례와 오픈소스 생태계인데 AI모델 개발회사와 반도체 회사 간의 소통 채널이 부족하다. AI반도체는 표준이 없어 생태계를 키우려면 서비스 기업과 반도체 기업이 함께 실험 결과를 나누고 기술적 문제를 공유할 수 있는 소통 창구가 절실하다”고 말했다.
|
향후 정책 방향에 대한 제언도 이어졌다. 이동수 전무는 “국가 R&D 및 민간 연구개발 과제 설계 시 AI 서비스와 반도체 아키텍처 간 상호 연계 구조가 반드시 반영돼야 한다”고 밝혔다.
현재 과학기술정보통신부는 국가AI컴퓨팅센터에 사용할 GPU로 엔비디아 제품 1만 장 구매를 추진 중인데, 김정호 교수는 “가속기 생태계의 다양성을 위해 여러 포트폴리오를 도입해야 한다”고 지적했다.
조민성 인텔코리아 이사도 “엔비디아에 대한 과도한 의존은 가격 인상, 공급 지연 등 국가 전략 차원의 리스크를 유발할 수 있다”며 “공공 과제에서의 기술 독점은 장기적으로 큰 폐해가 될 수 있다”고 경고했다.
인텔 측은 가우디는 가격 대비 성능에서 최대 2.5배 경쟁력이 있으며, 델, 수퍼마이크로 등 주요 서버 제조사와의 협업 사례도 함께 소개했다.