KAIST는 김용대 전기전자공학부 교수 연구팀이 국가보안기술연구소와 한국어 AI 생성 댓글을 탐지하는 기술 ‘XDAC’를 개발했다고 23일 밝혔다. 연구에는 김용대 KAIST 교수를 비롯해 고우영 국가보안기술선임연구소 선임연구원, 김형식 성균관대 교수, 오혜연 KAIST 교수가 참여했다.
|
연구팀은 우선 AI 생성 댓글과 사람 작성 댓글을 사람이 구별할 수 있는지 실험했다. 총 210개의 댓글을 평가한 결과, AI 생성 댓글의 67%를 사람이 작성한 것으로 착각했고, 실제 사람 작성 댓글도 73%만 정확히 구분해냈다. 사람조차 AI 생성 댓글을 정확히 구별하기 어려운 수준에 이르렀다.
이에 연구팀은 14종의 다양한 LLM 활용하고, 자연스러움 강화, 세밀한 감정 제어, 참조자료를 통한 증강 생성의 네 가지 전략을 적용한 AI 댓글 생성 프레임워크를 개발했다. 실제 이용자 스타일을 모방한 한국어 AI 생성 댓글 데이터셋을 구축하고 일부를 벤치마크 데이터셋으로 공개했다. 설명 가능한 AI(XAI) 기법을 적용해 언어 표현을 정밀 분석한 결과, AI 생성 댓글에는 사람과 다른 고유한 말투 패턴이 있음을 확인했다.
가령 AI는 “것 같다”, “에 대해” 등 형식적 표현과 높은 접속어 사용률을 보였다. 특수문자 사용에서도 AI는 전 세계적으로 통용되는 표준화된 이모지를 주로 사용했다. 특히, 서식 문자(줄바꿈, 여러 칸 띄어쓰기 등) 사용에서 사람 작성 댓글의 26%는 이런 서식 문자를 포함했지만, AI 생성 댓글은 단 1%만 사용했다. 반복 문자(ㅋㅋㅋㅋ, ㅎㅎㅎㅎ 등) 사용 비율도 사람 작성 댓글이 52%로, AI 생성 댓글(12%)보다 높았다.
XDAC는 이러한 차이를 반영해 탐지 성능을 높였다. 줄바꿈, 공백 등 서식 문자를 바꾸고, 반복 문자 패턴을 기계가 이해하도록 변환하는 방식이 적용됐다. 각 LLM의 고유 말투 특징을 파악해 어떤 AI 모델이 댓글을 생성했는지도 식별 가능하게 설계했다.
그 결과, XDAC는 AI 생성 댓글 탐지에서 98.5% F1 점수로 기존 연구 대비 68% 성능을 높였다. 댓글 생성 LLM 식별에서도 84.3% F1 성능을 기록했다.
고우영 보안연 선임연구원은 “생성형 AI가 작성한 짧은 댓글을 높은 정확도로 탐지하고, 생성 모델까지 식별하는 기술”이라며 “AI 기반 여론 조작 대응의 기술적 기반을 마련했다”고 말했다.
|