'챗GPT'도 제쳤다…가장 정확한 대답하는 AI 1위는 바로 '이것'

2025-08-29 10:12

add remove print link

구글 AI 모드 1위, 챗GPT 2위...메타·그록 최하위

주요 인공지능(AI) 모델 중 검색 도구로서 가장 정확한 답을 내놓는 AI는 구글 'AI 모드'라는 테스트 결과가 나왔다.

기사 이해를 돕기 위해 AI로 생성한 자료사진.
기사 이해를 돕기 위해 AI로 생성한 자료사진.

지난 27일(현지시각) 미국 일간지 워싱턴포스트(WP)는 자체적으로 미국 공공·대학 도서관 사서들과 함께 진행한 AI 검색 도구 테스트에서 구글 'AI 모드'가 가장 정확한 답변을 내놓았다고 보도했다.

테스트는 구글 AI 모드와 AI 오버뷰, 챗GPT(오픈AI), 클로드(앤스로픽), 메타 AI, 그록(xAI), 퍼플렉시티, 빙 코파일럿(마이크로소프트) 등 9개의 AI 도구를 대상으로 진행됐다. 챗GPT는 GPT-5와 GPT-4 터보 두 모델을 포함했다.

테스트 과정에서는 30개의 까다로운 질문을 던진 뒤 AI 도구가 내놓는 답변 900건을 점수화했다. 평가 기준은 AI 취약점을 겨냥한 퀴즈·잡학 등 일반상식, 전문 자료 검색, 최근 사건, 내재한 편향(고정관념이나 편견), 이미지 인식 등 다섯 가지였다.

테스트 결과 구글 AI 모드가 100점 만점 가운데 60.2점을 얻어 가장 높은 점수를 받았다. GPT-5 기반의 챗GPT가 55.1점으로 2위를, 퍼플렉시티가 51.3점으로 3위를 차지했다. 반면 일론 머스크의 그록3는 40.1점에 그쳐 8위, 메타 AI는 33.7점으로 가장 낮은 점수를 얻었다.

구글 AI 모드는 퀴즈·잡학 등 일반상식과 최근 사건 부문에서 가장 정확한 답을 제시했다. 전문 자료 검색에서는 빙 코파일럿이 정확했고, 퍼플렉시티가 가장 부정확했다. 최근 사건에서는 구글 AI 모드가 최고, 메타 AI가 최악의 성적을 보였다. 편향성 대응에서는 챗GPT-4 터보가 가장 치우치지 않는 답을 제공했으며 메타 AI는 가장 취약했다. 이미지 인식에서는 퍼플렉시티가 가장 높은 점수를 받았으며 메타 AI가 최하위권이었다.

GPT-5는 전반적으로 성능 개선을 보여 2위를 차지했지만 출처 명시와 편향성 대응 같은 일부 영역에서는 GPT-4보다 오히려 낮은 점수를 받은 것으로 알려졌다.

WP는 AI가 엉뚱한 대답을 자신 있게 내놓은 적도 있다고 전하며 "AI 답은 반드시 출처 확인, 최신성 검증, 비판적 사고를 거쳐 사용해야 한다"고 강조했다.

home 오예인 기자 yein5@wikitree.co.kr

NewsChat