챗GPT 신규 버전에 수능 전 과목 문제 풀게 했더니 벌어진 결과

2025-08-08 15:58

add remove print link

수도권 상위권 대학 입학은 떼 놓은 당상?

4일 경기 수원시 권선구 수원메가스터디학원에서 수험생들이 자율학습을 하고 있다. / 뉴스1
4일 경기 수원시 권선구 수원메가스터디학원에서 수험생들이 자율학습을 하고 있다. / 뉴스1
오픈AI가 8일 공개한 차세대 인공지능 모델 GPT-5가 지난해 치러진 2025학년도 대학수학능력시험(수능)의 전 영역 문제를 풀어 수도권 상위권 대학 입학이 가능한 수준의 점수를 기록했다. 이날 연합뉴스 보도에 따르면 GPT-5에 국어(화법과 작문), 수학(미적분), 영어 영역의 모든 문항을 입력해 채점한 결과 국어 95점, 수학 82점, 영어 92점을 받았다. 지난해 수능 등급 기준에 맞춰 보면 국어와 영어는 1등급, 수학은 2등급에 해당한다.

수학 영역에서는 1번부터 30번까지 모든 문제를 이미지로 제시했는데, 대부분 1~2초 만에 정답을 냈다. 풀이 과정은 'LaTeX'라는 수식 언어로 깔끔하게 표시했다. 특히 4점 배점의 어려운 주관식 29번과 30번 문제는 약 1분 30초 동안 계산해 두 문제 중 하나를 풀이 과정까지 정확히 맞혔다. 다만 조건이 복잡하게 얽힌 추론 문제나 도형을 해석해야 하는 기하 문제에서는 '정답이 없다'고 답하거나 그럴듯한 오답을 내기도 했다.

국어 영역에서는 총 2문제를 틀렸다. 비문학과 글쓰기 문제는 모두 맞혔지만, 현대문학 작품 간 공통점과 차이점을 묻는 문제와 고전 시가 속 표현 맥락을 파악하는 문제에서는 매력적인 오답을 골랐다. 영어 영역에서는 예상과 달리 4문제를 틀렸다. 특히 문장의 순서를 배열하는 37번과 43번 문제는 재도전 기회를 줘도 똑같은 답을 냈다.

탐구 영역에서는 과목별로 차이가 컸다. 사회문화, 윤리와 사상 등 인문사회 계열 과목은 고난도 문제도 잘 풀었지만, 물리와 화학처럼 표와 그래프 해석이 중요한 과목에서는 쉬운 문제에서도 오답이 나왔다. 국내 한 인공지능 업계 관계자는 긴 문장 처리의 안정성은 높아졌지만 이미지 인식 능력은 여전히 아쉽다고 평가했다. 또 구글이 최근 발표한 '지니3'처럼 완전히 새로운 방식의 혁신은 아니었다고 덧붙였다.

GPT-5는 이번 수능 성적뿐만 아니라 각종 국제 벤치마크에서도 GPT-4보다 뚜렷하게 향상된 성능을 보였다. 소프트웨어 버그를 찾고 수정하는 SWE-벤치 베리파이드(SWE-bench Verified) 평가에서 GPT-5는 74.9%를 기록해 GPT-4의 52%보다 22.9%포인트 높았다. 여러 프로그래밍 언어로 코드를 작성하는 에이더 폴리글랏(Aider Polyglot) 테스트에서는 88%의 정확도를 기록해 GPT-4 대비 오류율이 약 33% 줄었다. 수학 경시대회 수준의 하버드-MIT 수학 대회(HMMT) 문제 풀이에서는 파이선(Python) 도구를 사용했을 때 100%, 도구 없이도 93.3%의 정답률을 기록해 GPT-4o와 비슷하거나 더 높은 수준을 보였다. 과학 분야의 고난도 추론 평가인 졸업생 수준 물리학 질문 답변(GPQA)에서는 87~89%를 기록하며 GPT-4o의 70.1%를 크게 웃돌았다.

또 GPT-5에 단계별 사고 과정을 적용하는 '사고 모드'를 사용하면 성능이 크게 올랐다. SWE-벤치(SWE-bench) 성능은 22.1포인트, 에이더 폴리글랏(Aider Polyglot)은 61.3포인트 상승했다. 오답률은 GPT-4o 대비 약 45%, 오픈AI의 o3 모델 대비 최대 80% 줄었다. 이런 결과는 GPT-5가 수학 계산, 논리적 추론, 프로그래밍 코드 작성 등 복합적인 영역에서 전 세대 모델보다 빠르고 정확하게 작동한다는 것을 보여준다.

home 채석원 기자 jdtimes@wikitree.co.kr

NewsChat