오픈AI 'GeneBench-Pro' 공개…최강 AI도 문제 3분의 1만 풀어

작성일

오픈AI, 첨단 유전체 분석 벤치마크 GeneBench-Pro 공개
최강 모델 GPT-5.6 솔도 129개 문제 중 3분의 1 못 풀어

오픈AI 'GeneBench-Pro' 공개…최강 AI도 문제 3분의 1만 풀어 / AI 생성 일러스트(삽화)
오픈AI 'GeneBench-Pro' 공개…최강 AI도 문제 3분의 1만 풀어 / AI 생성 일러스트(삽화)

오픈AI가 화요일(현지시각) 새 연구용 벤치마크 'GeneBench-Pro'를 공개했다. 실제 계산생물학자가 매일 마주하는 지저분하고 판단이 필요한 분석 작업을 AI 에이전트에게 그대로 던져주는 방식이다. 오픈AI의 최고 성능 모델 GPT-5.6 솔(Sol)조차 최대 연산량을 투입해도 전체 문제의 3분의 1도 풀지 못했다. 지식 암기나 단순 추론을 넘어, AI가 자율적으로 과학 분석을 수행할 수 있는지 처음으로 결정론적 채점 방식으로 확인한 결과다.

기존 벤치마크와 다른 점

대부분의 생물학 AI 벤치마크는 지식 검색이나 한 단계짜리 추론을 테스트한다. 유전자 조절 네트워크의 기능을 설명하거나 단백질 구조를 식별하는 수준이다. GeneBench-Pro는 훨씬 까다로운 기준을 적용한다.

이 벤치마크는 129개 문제로 구성됐다. 각 문제는 AI 에이전트에게 현실적이면서도 일부러 지저분하게 만든 데이터셋과 간단한 실험 배경, 그리고 하류의 과학적·임상적 판단과 연결된 추정 목표를 제시한다. 에이전트는 데이터를 탐색하고 표본 오표기, 조상 정보 혼입, 고대 DNA 편향, 측정 오차 같은 품질 문제를 스스로 찾아내야 한다. 이어 어떤 분석 방법이 적절한지 결정하고, 초기 결과가 잘못됐다는 신호가 나오면 계획을 다시 수정해야 한다. 마지막으로 정해진 형식에 맞춰 수치 답안을 내야 한다.

문제는 통계유전학, 인구집단 유전체학, 양적유전학, 조절오믹스, 기능유전체학, 단백질체학, 임상 약물유전체학, 암 체성유전체학, 미생물유전체학, 법유전학까지 10개 도메인과 21개 하위 도메인에 걸쳐 있다. 오픈AI는 이를 두고 AI가 '연구자의 감각(research taste)'을 갖췄는지 측정하는 지표라고 설명했다. 모호한 데이터를 해석하고 가정을 수정하며, 결과가 후속 연구에 활용할 만큼 신뢰할 수 있는지 판단하는 일련의 과정을 뜻한다.

GPT-5.6 솔, 28.7%~31.5%에 그쳐 / AI 생성 이미지
GPT-5.6 솔, 28.7%~31.5%에 그쳐 / AI 생성 이미지

GPT-5.6 솔, 28.7%~31.5%에 그쳐

오픈AI에 따르면 GPT-5.6 솔은 최고 추론 설정에서 28.7%의 통과율을 기록했다. 프로 모드에서는 31.5%까지 올랐다. 두 수치 모두 129개 문제 중 3분의 1을 밑도는 수준이다.

비교 대상은 이전 세대 벤치마크인 'GeneBench'가 처음 나왔을 당시 가장 강력했던 모델로, 그때는 통과율이 5% 미만이었다. 이번 성과가 절대적으로는 여전히 낮지만 상대적으로는 뚜렷한 상승을 보인 셈이다. 오픈AI는 프런티어 모델들이 여전히 문제의 3분의 1도 풀지 못하며, 부분적인 진전은 이루지만 숙련된 연구자가 기대하는 완결된 과학적 추론 사슬을 끝까지 완수하지 못하는 경우가 많다고 인정했다.

이런 결과가 나온 배경에는 벤치마크의 채점 방식이 있다. 기존 생물학 벤치마크 다수는 실제 역사적 데이터셋을 기반으로 만들어졌는데, 여기에는 구조적 문제가 있다. 지저분한 실제 데이터는 여러 가지 타당한 분석 선택을 동시에 허용하기 때문에, 모델이 합리적인 방법을 골랐더라도 벤치마크를 만든 사람이 다른 방법을 정답으로 정해뒀다면 오답 처리될 수 있다는 것이다. GeneBench-Pro는 모든 문제를 완전히 알려진 인과 구조로부터 합성 데이터로 생성해 이 문제를 해결했다. 오픈AI가 데이터 생성 과정 전체를 통제하기 때문에 검증된 정답과 비교해 결정론적으로 채점할 수 있다.

시간과 비용의 격차, 그리고 경제적 함의

외부 검토자들은 GeneBench-Pro의 전형적인 과제 하나를 완료하려면 전문가가 20~40시간을 투입해야 하고, 비용도 수천 달러에 달할 것으로 추산했다. 반면 현재 AI 추론 비용은 건당 수 달러 수준에 불과하다. 오픈AI는 모델이 아직 전문가 수준의 성능에 도달하지 못했더라도 이런 시간·비용 격차 자체가 상당한 경제적 잠재력을 시사한다고 주장했다.

이는 생명공학·신약 개발 업계가 주목할 만한 대목이다. 연구자들은 이제 AI 역량과 자율적 과학 분석 사이의 간극이 어디에 있는지 결정론적으로 채점된 근거를 통해 처음으로 확인할 수 있게 됐다. 다만 통과율이 3분의 1을 밑도는 현재 수준에서는, AI를 완전히 자율적인 연구자로 신뢰하기보다는 숙련된 연구자의 보조 도구로 활용하는 편이 현실적이라는 해석이 나온다.

공개 방식과 앞으로의 검증

오픈AI는 독립적인 평가를 유도하기 위해 대표 문제 10개를 허깅페이스(Hugging Face)에 오픈소스로 공개했다. 또 50개 문제로 구성된 부분집합을 제3자 벤치마킹 기관인 아티피셜 애널리시스(Artificial Analysis)에 제공해 외부 검증을 받는다.

이번 공개는 AI 평가의 흐름이 사실 지식이나 코딩 능력 테스트에서, 판단력과 실험적 통찰이 필요한 실제 연구 업무 수행 능력을 측정하는 방향으로 옮겨가고 있음을 보여준다. GeneBench-Pro가 던진 3분의 1이라는 낮은 통과율은 앞으로 AI 모델들이 이 벤치마크를 얼마나 빠르게 극복하는지에 따라 과학 연구 자동화의 실제 속도를 가늠하는 척도가 될 전망이다.