국내·해외 AI 모델에 '수능 수학' 풀게 했더니…놀라운 결과가 나왔습니다

2025-12-15 11:59

add remove print link

김종락 서강대 교수팀 테스트서 국내 모델 성능 큰 격차
해외 AI 상위권, 국내 모델 하위권…“새 버전 재평가 예정”

국가대표 인공지능(AI)에 도전하는 한국팀들의 기존 대형 언어 모델(LLM)이 수학 수능 및 논술 문제 풀이에서 해외 모델에 한참 못 미치는 성능을 보이고 있다는 평가가 나왔다.

기사 내용을 바탕으로 한 AI 이미지
기사 내용을 바탕으로 한 AI 이미지

김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 한 결과, 이같이 나타났다고 15일 밝혔다.

연구팀은 수능 수학의 △공통과목 △확률과 통계 △미적분 △기하 영역에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했고, 논술 문제는 국내 10개 대학 기출 문제와 인도 대학 입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 10개 모델에 풀게 했다.

한국 모델로는 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007' SK텔레콤의 'A.X 4.0(72B)' 엔씨소프트 경량모델 '라마 바르코 8B 인스트럭트'를 활용했다. 해외 모델에는 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 활용됐다.

테스트 결과 해외 모델의 점수는 76점~92점으로 전반적으로 높았으나, 한국 모델은 솔라 프로-2가 58점으로 가장 높은 점수를 기록했고 나머지는 20점대에 머물렀다. 경량 모델인 라마 바르코 8B 인스트럭트는 2점에 그쳤다.

연구팀은 한국 모델들이 단순 추론만으로는 대부분의 문제를 풀지 못해 파이선(Python) 계산 도구를 활용할 수 있도록 설정했음에도 불구하고 정답률이 낮았다고 설명했다.

이어 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했는데, 여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점에 그쳤다.

세 차례 문제 풀이 기회를 주고 정답을 맞히면 통과하는 방식을 적용했을 때, 그록은 만점을 받았고 나머지 해외 모델은 90점을 기록했다. 반면, 한국 모델은 솔라 프로-2가 70점, 엑사원이 60점이었다. HCX-007은 40점, A.X 4.0은 30점, 라마 바르코 8B 인스트럭트는 20점에 머물렀다.

김 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다"며 "국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다"고 설명했다.

연구팀은 이번에 쓰인 국내 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다고 밝혔다.

김 교수는 "엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설했으며 이를 국제적인 수준으로 키울 것"이라며 "자체 개발 문제 생성 알고리즘과 파이프라인을 개선해 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성해 도메인 특화 모델 성능 개선에 기여할 것"이라고 말했다.

이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS), 딥파운틴에서 공동 지원했다.

home 양주영 기자 zoo123@wikitree.co.kr

NewsChat