GPT o3 혼자 리서치 리포트를 쓰면 DRACO 벤치마크 42.7점이다. Claude Opus 4.6 혼자 쓰면 43.3점. 그런데 GPT가 초안 쓰고 Claude가 검토하면? 57.4점. 경쟁사 모델 두 개를 한 파이프라인에 넣었더니 13.8% 점프가 나왔다. 마이크로소프트가 3월 30일에 공개한 Copilot Researcher의 Critique 모드 이야기다.
Critique는 코드 리뷰랑 같다
작동 방식은 놀라울 정도로 심플하다. 사용자가 리서치 질문을 던지면 GPT o3가 웹을 뒤지고, 소스를 읽고, 구조를 잡고, 인용 포함 리포트 초안을 작성한다. 그 다음 Claude Opus 4.6가 독립적으로 전체를 검토한다 — 정확성, 소스 신뢰도, 인용 품질, 완전성까지 전부.
솔직히 이건 PR 리뷰 프로세스랑 구조가 똑같다. 한 사람이 코드를 올리고, 다른 사람이 리뷰한다. 같은 코드를 두 번 짜는 게 아니라 작성과 검증을 분리해서 품질을 올리는 거다. 다른 점이라면 리뷰어가 사람이 아니라 아예 다른 회사의 모델이라는 것 정도.
벤치마크가 꽤 분명하게 말해준다
DRACO는 딥 리서치 품질을 측정하는 업계 표준 벤치마크다. 결과를 보면 멀티모델의 효과가 선명하게 드러난다:
| 시스템 | DRACO 점수 |
|---|---|
| Copilot Critique (GPT + Claude) | 57.4 |
| Perplexity Deep Research | 50.4 |
| Claude Opus 4.6 단독 | 43.3 |
| GPT o3 단독 | 42.7 |
개별 항목을 뜯어보면 더 재밌다. 분석 깊이와 범위가 +3.33으로 가장 크게 뛰었고, 발표 품질 +3.04, 사실 정확도 +2.58 순이다. 정확도보다 분석 깊이가 더 많이 오른 거다. 검토자가 단순히 "이거 틀렸어"보다 "이 부분 더 파봐"를 피드백할 때 리포트 품질이 더 크게 올라간다는 뜻이다. 팩트체킹만이 아니라 구조적 비평이 효과를 내는 셈이다.
그리고 하나 눈에 걸리는 게 있다. Perplexity Deep Research가 50.4인데, 이 도구도 내부적으로 여러 모델을 쓴다고 알려져 있다. 단일 모델 대비 멀티모델 시스템이 일관되게 높은 점수를 기록하는 패턴이 보인다.
Council은 좀 다른 개념이다
Critique가 "작성 → 검토"라면 Council은 아예 접근이 다르다. GPT와 Claude가 각각 독립적으로 전체 리포트를 작성하고, 세 번째 모델이 두 결과물을 비교 분석한다. 합의점, 의견 차이, 각자만의 고유 인사이트를 정리해서 보여준다.
이 패턴, 직접 써먹을 수 있다
마이크로소프트의 Copilot Critique 자체는 진입 장벽이 높다. M365 Copilot 라이선스 월 $30에 Frontier 프로그램 등록까지 필요하고, IT 관리자가 서드파티 모델 접근을 켜줘야 하며, 월 25쿼리 제한이 있다. 엔터프라이즈 고객 아니면 구경하기도 힘들다.
근데 패턴 자체는 누구나 복제할 수 있다. generate-then-critique 파이프라인의 핵심은 간단하다 — 첫 번째 모델에게 생성을 시키고, 두 번째 모델에게 특정 기준(정확성, 완전성, 논리적 일관성)으로 검토를 맡기고, 피드백을 반영해서 최종본을 뽑는다. API 두 개 호출이면 된다.
여기서 핵심 포인트 하나. 같은 모델을 두 번 호출하는 것보다 서로 다른 모델을 쓰는 게 효과적이다. 학습 데이터와 RLHF 방식이 다르면 실수하는 지점도 다르다. GPT가 놓치는 걸 Claude가 잡고, Claude가 약한 부분을 GPT가 보완한다. 동일 모델 반복은 같은 편향을 강화할 위험이 있다. 마이크로소프트의 DRACO 결과가 이걸 숫자로 증명한 거다 — 각각 42~43점짜리 모델이 합쳐지면 57점이 되지만, 같은 모델 두 번 돌리면 그만큼 오르지 않는다.
AutoGen이나 LangGraph 같은 멀티에이전트 프레임워크에는 이미 이런 반성(reflection) 루프를 구현할 수 있는 구조가 잡혀 있다. 프레임워크 없이도 충분히 가능하고, 오히려 단순한 스크립트로 시작하는 게 오케스트레이션 비용 대비 효과를 빠르게 검증할 수 있다.
마이크로소프트가 진짜 말하고 있는 것
이 기능의 기술적 임팩트 못지않게 비즈니스 메시지도 선명하다. 마이크로소프트가 말하는 건 "우리는 최고의 모델을 만드는 회사가 아니라, 최고의 모델들을 오케스트레이션하는 회사"라는 선언이다. OpenAI에 수십억 달러를 투자해놓고 동시에 Anthropic의 Claude를 핵심 파이프라인에 집어넣는다. 모델 제조사 입장에서는 묘한 기분일 텐데, 사용자 입장에서는 이게 합리적이다.
양방향 비평도 예고했다. 지금은 GPT가 쓰고 Claude가 검토하는 단방향인데, 곧 Claude가 쓰고 GPT가 검토하는 반대 방향도 추가해서 최적 조합을 자동으로 고르게 하겠다는 것이다.
단일 모델만 잘 고르면 되는 시대가 저물고 있다. 어떤 모델을 쓰느냐보다 모델들을 어떻게 엮느냐가 차별화 포인트가 되는 전환점 — Copilot Critique의 57.4점이 그 첫 번째 대중적 증거다.