'K-AI 파운데이션' 사업 시동…"오픈소스 공개 수준 주요 평가"[일문일답]

[이데일리 임유경 기자] 정부가 인공지능(AI) 강국 도약을 위한 독자 AI 파운데이션 모델 개발에 본격 착수했다. 민간 정예팀을 선발해 그래픽처리장치(GPU), 데이터, 인재 등 핵심 자원을 패키지로 지원해, 글로벌 수준의 성능을 확보한 오픈소스 지향 모델을 확보한다는 구상이다.

과학기술정보통신부와 정보통신산업진흥원(NIPA), 한국지능정보사회진흥원(NIA), 정보통신기획평가원(IITP)은 27일 서울 역삼동 포스코타워에서 사업설명회를 열고 국내외 기업과 연구기관, 대학 등에서 다양한 실무진이 참석한 가운데 사업의 주요 내용을 소개했다.

27일 서울 역삼동 포스코타워에서 ‘독자 AI 파운데이션 모델 프로젝트’ 설명회가 열렸다.(사진=임유경 기자)

이번 사업은 최대 5개 정예팀을 선정해 3년간 GPU, 데이터, 인재 등 핵심 자원을 패키지로 지원하는 것이 특징이다. 각 팀은 단독 또는 컨소시엄 형태로 참여할 수 있으며, GPU 지원, 데이터 구축·공동구매, 우수 인재 유치 등 원하는 분야를 자유롭게 선택해 신청할 수 있다. 특히 오픈소스 지향과 글로벌 수준의 모델 성능(최신 AI 모델의 95% 이상 달성)이 필수 목표로 제시됐다.

사업 추진 방식은 민간 주도의 전략 설계와 실행에 초점을 맞췄다. 정부는 6개월 단위로 성과를 평가하며, 대국민 사용 평가, 오프라인 콘테스트, 전문가 활용 평가 등 다양한 방식이 도입된다. 공모는 지난 20일부터 시작됐으며 접수 마감은 7월 21일 오후 4시다. 12월 말 1차 평가를 시작으로, 단계별로 서류·발표·사업비 심의 등을 거쳐 최종 지원팀을 선정할 예정이다.

지원 세부 내용으로는 GPU 최대 H100 1000장, B200 500장까지 제공 가능하며, 데이터 부문에서는 팀당 최대 28억 원의 개별 데이터 구축 비용과 100억 원 규모의 공동구매 데이터가 지원된다. 인재 부문은 해외 우수 연구자 유치에 중점을 두고, 근로계약을 맺은 인력에 한해 국내외 근무가 허용된다.

정부는 이번 사업을 통해 개발된 K-AI 모델이 공공·산업 분야로 확산될 수 있도록 지원할 계획이다. 또한 오픈소스 공개 수준, 국민 AI 접근성 제고, 사회적 기여도 등이 주요 평가 요소로 반영되며, 선정된 모델은 ‘K-AI 모델’ 명칭을 활용해 글로벌 진출에도 도움을 받을 전망이다.

다음은 이날 설명회에서 나온 질의응답 일문일답이다

-한 대학 내 여러 연구실이 각기 다른 컨소시엄에 참여할 수 있는가.

△ 가능하다. 예컨대 카이스트 내 A 연구실은 A 컨소시엄에 참여기관으로, 카이스트는 B 컨소시엄의 주관기관으로 참여하는 방식도 허용된다. 단, 참여 인력의 중복 지원은 불가하다는 원칙을 반드시 지켜야 한다.

-선발 유형이 다른 기업들을 어떻게 공정하게 평가할 예정인가.

△ 평가 기준은 동일하다. 유형이나 자원 차이에 따라 평가 방식을 달리하지 않는다. ‘글로벌 수준에 비견하기 위해서는 유형을 불문하고 동일한 기준으로 평가해야 한다’는 원칙이다.

-오픈소스 공개 여부에 따른 평가 차등이 있나.

△ 있다. 오픈소스 공개 수준은 ‘파급 효과 및 기여 계획’ 항목(30점)에 포함돼 있으며, 공개 범위에 따라 평가 결과에 실질적인 영향을 줄 가능성이 크다.

-컨소시엄 내 주관·참여기관의 구성 비율에 대한 규정은.

△ 규정 없다. 각 컨소시엄이 자율적으로 비율과 역할을 설계하면 된다.

-H-index 기준은. 해외 연구 경력과 어떻게 비교되는가.

△ 제시된 기준은 ‘OR 조건’으로, 어느 하나라도 충족하면 된다. H-index에 대한 정량적 기준은 없으며, 평가는 위원회 재량에 맡긴다.

-GPU 선정에서 탈락한 기업도 데이터 이용 가능성 있는가.

△ 있다. 일부 데이터(약 50%)는 공개될 예정이며, 해당 기업도 활용할 수 있다. 다만 데이터 공개 시점은 아직 미정이다.

-공동 데이터 공급 기업이 컨소시엄 참여기관으로도 중복 참여 가능한가.

△ 가능하다. 다만 내부 거래는 불가하다. 예컨대 동일 컨소시엄 내에서 유상으로 데이터를 판매하는 행위는 금지된다.

-공동 데이터로 제출한 것과 컨소시엄 내 별도 구축 데이터가 다르면 문제 없나.

△ 문제 없다. 컨소시엄용 데이터는 무상 제공하고, 별도 과제를 위한 데이터는 별도 예산으로 공급 가능하다.

-데이터 공개 시점은.

△ 벤치마크 데이터셋은 조만간(6월 말~7월 초) 공개 예정. 데이터 50% 공개 일정은 아직 미정이며 내부 조율 중이다.

-GPU 민간 부담금 분담 기준은.

△ 주관기관 주도로 역할과 사용량을 정한 뒤, 사업계획서에 비중과 금액을 명시하면 된다. 정부가 임의로 파티션을 나누지 않는다.

-계약 시점은.

△ 비용에 되게 민감하기 때문에 협약 시작 시점과 자원을 제공하는 시점은 거의 동일할 것이다.

-GPU가 클러스터링 되어 있어야 학습이 가능한데, GPU 구매 사업 구조상 차질은 없나.

△ 기본적으로 최소 H100은 1000장 이상, B200은 500장 이상 클러스터링 되어야 GPU 확보 사업에 참여할 수 있다. 이는 기술검증 및 현장 실사를 통해 확인 예정이다.

-목표 모델을 중간에 수정할 수 있는가.

△ 하향 조정은 불가. 다만 상향 조정은 고려할 수 있다.

-GPU 지원 수량은 몇 등까지 가능한가.

△ GPU 공급사를 지금 선정하고 있고, 공급 계약에 따라 달라질 것으로 본다.

-무빙 타깃은 정부가 정하나. 방향성은 있는가.

△ 정부가 직접 제시하지는 않는다. 다만 1차년도에는 ‘최근 6개월 이내 글로벌 모델 성능의 95% 이상 수용’을 목표로 하고 있으며, 이후 목표는 단계 평가 이후 설정된다.

-글로벌 오픈소스 모델을 기반으로 자체 LLM을 구축한 스타트업이 많은데, 그 경우에도 라이선스 이슈가 없다면 자체 LLM 모델로 인정을 해 주시나.

△라이선스 이슈가 없다는 말은 다른 글로벌 AI 모델과 많이 다르다고 다르기 때문이라 생각한다. 그런 측면에 있어서는 저희 사업에 참여하실 수 있다. 우리가 보고자 했던 지향점은 참여 기업의 실력이기 때문에 파인튜닝을 했던 실력이나 혹은 데이터를 다뤄봤던 실력이나 여러 가지 실력들이 제시해 주실 수 있을 것 같다.