세 모델 전부 1등이고 전부 꼴등이다 — 프론티어 벤치마크 한 달 정산

GPT-5.4 출시 한 달째다. 같은 기간에 Opus 4.6이 SWE-Bench에서 80.8%를 찍었고, Gemini 3.1 Pro는 GPQA Diamond 94.3%를 갱신하면서 가격까지 내렸다. 세 프론티어를 프로덕션에 넣어본 팀이 제법 쌓였을 텐데, 공통된 반응이 하나 있다 — "이게 최고"라고 하나만 찍을 수가 없다는 거다. 벤치마크를 깔끔하게 정리해보면 세 제품이 각자 다른 영역에서 1등을 나눠 갖는 완벽한 3분할 구도가 나온다. 그리고 이 구도가 시사하는 바는 생각보다 실용적이다.

벤치마크가 그리는 3분할 지도

주요 벤치마크 7개를 나란히 놓으면 패턴이 즉시 드러난다.

벤치마크	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
GDPval (지식업무)	83.0%	78.0%	—
OSWorld (데스크톱 조작)	75.0%	72.7%	—
SWE-Bench Verified (코딩)	57.7%	80.8%	80.6%
GPQA Diamond (과학추론)	92.8%	91.3%	94.3%
MMMU Pro (시각추론)	81.2%	85.1%	80.5%
ARC-AGI-2 (추상추론)	73.3%	75.2%	77.1%
Terminal-Bench 2.0	75.1%	65.4%	68.5%

GPT-5.4는 데스크톱 자동화와 일반 지식업무에서 확실한 선두다. 사람 기준 72.4%를 넘긴 첫 범용 AI라는 OSWorld 타이틀은 실제로 써보면 납득이 간다. SharePoint에서 분기 보고서 내려받고, 수치 뽑아서 Excel 대시보드 갱신하고, CFO에게 요약 메일까지 보내는 흐름을 자율적으로 끝낸다. Playwright 코드 생성과 직접 마우스·키보드 입력이라는 두 가지 모드를 지원하니까, 자동화 프레임워크를 따로 깔지 않아도 돌아간다. Terminal-Bench 2.0에서도 75.1%로 1위인데, 터미널 기반 태스크를 연속으로 처리하는 시나리오에서 체감 차이가 생각보다 크다.

그런데 코딩으로 넘어가면 이야기가 완전히 달라진다. SWE-Bench Verified 57.7% 대 Opus 4.6의 80.8% — 23포인트는 숫자 이상이다. 프로덕션 버그 픽스를 돌려보면, Opus가 원샷으로 해결하는 문제를 GPT-5.4는 두세 차례 왕복해야 하는 상황이 꽤 된다. 시각 추론(MMMU Pro 85.1%)까지 합치면 Opus의 우위는 더 선명해진다. UI 스크린샷 던져주고 "이 레이아웃 버그 잡아줘"라고 하면 Opus가 훨씬 정확하게 짚어낸다. 코드를 읽고 고치는 작업에 한해서는, 지금 나와 있는 것 중 Opus 4.6이 가장 믿을 만한 도구인 건 분명하다.

Gemini 3.1 Pro는 이 표에서 존재감이 가장 조용하면서 포지셔닝은 가장 흥미롭다. 과학 추론(94.3%)과 추상 추론(77.1%) 양쪽 모두 1위를 먹으면서, 가격은 셋 중 최저(입력 $2/M, 출력$ 12/M)다. Opus 4.6(입력 $5, 출력$ 25)의 절반도 안 되는 비용에 추론 성능은 오히려 높다. Intelligence Index 종합 점수에서 GPT-5.4와 Gemini가 57.17 대 57.18 — 소수점 셋째 자리에서야 겨우 갈리는, 통계적으로 무의미한 차이다. 컨텍스트 윈도우도 2M 토큰으로 셋 중 가장 넓다. 솔직히 가성비만 따지면 Gemini가 이 라운드의 승자다.

272K 토큰, 보이지 않는 가격 장벽

GPT-5.4의 "1M 컨텍스트"가 마케팅에선 화려하지만 가격표에 함정이 숨어 있다. 프롬프트가 272K 토큰을 넘는 순간 입력 단가가 $2.50에서$ 5.00으로 두 배가 뛴다. 내부 아키텍처를 보면 이유가 있긴 한데 — 256토큰 단위 마이크로 블록을 학습된 벡터로 압축한 뒤 2단계 계층적 어텐션을 수행하는 구조라서, 272K 이후의 추가 연산 비용이 가격에 직접 반영된 거다. 코드베이스를 통째로 밀어넣는 파이프라인을 설계 중이라면, 272K 경계를 넘기 전에 그 토큰이 정말 전부 필요한지 재고해볼 필요가 있다. 참고로 Gemini의 2M 컨텍스트는 구간별 단가 변동이 없다.

실전 라우팅 전략

"최고의 AI"를 하나 찍는 질문 자체가 이제 구조적으로 틀렸다. 한 달간 프로덕션에서 굴려보고 정착한 분배 패턴을 정리한다.

코드 작성과 버그 픽스는 Opus 4.6으로 보낸다. SWE-Bench 23포인트 격차는 허수가 아니고, 시각 추론까지 높아서 스크린샷 기반 디버깅에서도 가장 강력하다. 코드 맥락을 넓게 잡아야 할 때는 1M 베타 컨텍스트도 쓸 수 있다.

데스크톱 자동화와 브라우저 기반 워크플로우는 GPT-5.4가 현재로선 유일한 현실적 선택지다. 네이티브 컴퓨터 유즈가 RPA 시나리오에서 확실한 차별점이고, 지식업무 벤치마크(GDPval 83%)도 이 영역에서의 신뢰를 뒷받침한다.

대량 문서 처리나 추론 집약 태스크는 Gemini 3.1 Pro로 간다. 2M 컨텍스트, 최저 가격, 추론 벤치 1위 — 이 삼박자를 이길 조합이 지금은 없다.

그리고 단순 분류나 초안 생성 같은 가벼운 작업에 프론티어급을 투입하는 건 순수한 낭비다. GPT-5.4 mini( $0.40/$ 1.60)나 Gemini Flash로 충분하다.

OpenRouter처럼 멀티모델 게이트웨이를 끼면 API 엔드포인트 하나로 이 분배를 처리할 수 있다. 다만 "메타 에이전트가 알아서 최적 경로를 골라준다"는 식의 자동 라우팅은 아직 시기상조다. 분류 자체에 토큰 비용이 발생하고, 잘못된 라우팅이 다운스트림 품질을 깎는 리스크가 있다. 지금 단계에서 가장 안정적인 전략은 태스크 타입별로 대상을 하드코딩해두는 거다. 자동 라우팅은 각 제품의 성능 프로파일이 좀 더 안정된 다음 고려해도 늦지 않는다.

GPT-4 하나가 전 영역을 지배하던 시절은 확실히 끝났다.

#벤치마크가 그리는 3분할 지도

#272K 토큰, 보이지 않는 가격 장벽

#실전 라우팅 전략

벤치마크가 그리는 3분할 지도

272K 토큰, 보이지 않는 가격 장벽

실전 라우팅 전략