오픈AI, 소프트웨어만으로 추론 비용 절반 줄였다

송태섭 기자 love@wikitree.co.kr

작성일 2026-07-01 08:55

오픈AI, 소프트웨어 최적화만으로 추론 비용 50% 이상 절감…GPU 수백 대로 서비스 가능
새 칩 없이 기존 인프라 효율 개선, AI 수익성 경쟁의 구조적 변화 신호탄

오픈AI, 소프트웨어만으로 추론 비용 절반 줄였다 / AI 생성 일러스트(삽화)

오픈AI(OpenAI) 엔지니어들이 이달 초 동료들에게 AI 모델 추론(inference) 비용을 절반 이상 낮추는 데 성공했다고 알린 것으로 전해졌다. 추론이란 이미 학습된 AI 모델을 실제로 실행해 응답을 생성하는 과정으로, 챗GPT(ChatGPT) 질의 한 건 한 건이 모두 비용을 발생시킨다. 이번 최적화는 새로운 하드웨어 없이 소프트웨어 개선만으로 이뤄졌다는 점에서 업계의 주목을 받고 있다. 미국 IT 전문 매체 '더 인포메이션(The Information)'이 최초 보도했고 복수의 매체가 이를 인용해 전했다.

새 칩도 없이, 소프트웨어만으로

이번 비용 절감의 핵심은 기존 GPU 서버 자원의 활용 효율을 높이는 소프트웨어 최적화에 있다. 더 인포메이션 보도에 따르면, 오픈AI 엔지니어들은 새로 발견한 최적화 기법을 통해 추론 비용을 절반 이상 낮추는 방법을 찾아냈다.

이 기법을 계정이 없는 비로그인(게스트) 챗GPT 이용자 트래픽에 적용한 결과, 해당 사용자 전체를 서비스하는 데 필요한 엔비디아(Nvidia) GPU 수가 수백 대 수준으로 줄어든 시점이 있었다. 이는 놀라울 정도로 적은 숫자라고 보도됐다. 다만 최적화 이전에 얼마나 많은 GPU가 필요했는지, 정확히 어떤 기법이 사용됐는지는 공개되지 않았다.

비로그인 사용자는 챗GPT의 매우 제한된 기능만 이용할 수 있다. 따라서 이번 성과가 유료 구독자를 포함한 전체 서비스에도 그대로 적용될 수 있을지는 아직 불확실한 상태다.

소프트웨어 전략과 하드웨어 전략의 병행

오픈AI는 추론 비용 절감을 위해 소프트웨어 최적화와 함께 자체 칩 개발도 병행하고 있다. 2026년 6월(현지시각), 오픈AI는 반도체 업체 브로드컴(Broadcom)과 공동 개발한 자체 추론 전용 칩 '할라페뇨(Jalapeño)'를 공개했다. 이 칩은 챗GPT 같은 고수요 언어 모델 애플리케이션에서 전력 대비 성능을 높이고 엔비디아 GPU 의존도를 줄이는 것을 목표로 한다.

현재 오픈AI는 배치 API(Batch API)를 표준 API 대비 50% 할인된 가격에 제공하고 있기도 하다. 단, 이 서비스는 24시간 이내 비동기 처리 방식으로 운영돼 실시간 응답이 필요한 용도에는 적합하지 않다. 소프트웨어 최적화라는 단기 성과와 자체 실리콘 개발이라는 장기 전략이 동시에 추진되는 셈이다.

업계 전반으로 번지는 비용 절감 경쟁

오픈AI만 이런 움직임을 보이는 것이 아니다. 업계 전반에서 추론 비용 절감을 위한 다양한 기법이 동원되고 있다. 모델 가중치의 정밀도를 낮춰 연산량을 줄이는 양자화(quantization), 자주 요청되는 결과값을 저장해 중복 연산을 피하는 캐싱(caching), 특정 쿼리에 모델 파라미터 일부만 활성화하는 혼합전문가(Mixture-of-Experts, MoE) 아키텍처 등이 대표적이다. 이러한 기법들은 여러 사업자에서 50% 이상의 비용 절감을 달성한 사례가 있다.

딥시크(DeepSeek)도 최근 추론 요청 속도를 60~85% 높일 수 있는 새 오픈소스 기법을 공개했다. 구글(Google), 메타(Meta), 아마존(Amazon), 마이크로소프트(Microsoft) 역시 각자의 자체 칩 개발을 추진하고 있다고 전해진다. 절감된 연산 자원은 서비스 확장, 더 나은 모델 개발, 응답 속도 향상, 또는 수익성 개선 등에 활용될 수 있다. 다만 데이터센터 증설 속도가 느린 만큼 이런 효율 개선이 반도체 수요 자체를 크게 줄이기보다는 사업자들에게 운영 여유를 넓혀주는 효과가 더 클 것이라는 시각도 있다.

AI 수익성 경쟁의 구조적 전환점

이번 최적화가 주목받는 이유는 단순한 비용 절감 그 이상이다. 추론 비용은 AI 사업자에게 구조적 압박 요인이었다. 업계에서는 추론 지출이 연간 수십억 달러에 달할 수 있다는 추정이 나오며, 여기에 모델 규모 확대와 챗GPT 사용자 증가까지 더해지면 부담은 더 커진다.

소프트웨어만으로 기존 GPU 인프라의 효율을 대폭 끌어올렸다는 사실은 AI 기업 수익성에 대한 기존의 분석 틀을 바꿀 수 있다. 지금까지 업계에서는 연산 비용 절감이 주로 더 빠른 신형 칩 도입이나 자체 ASIC 개발을 통해 이루어진다는 가정이 지배적이었다. 이번 사례는 엔지니어링 최적화가 하드웨어 교체 사이클을 기다리지 않고도 비용 구조를 빠르게 바꿀 수 있음을 보여준다는 평가를 받는다.

오픈AI

추론비용

챗GPT

AI최적화

엔비디아