Muse Spark 벤치마크 뜯어보기 — 토큰 효율은 압도적인데 코드를 못 짠다

Meta가 9개월 동안 만든 첫 번째 결과물이 나왔다. Muse Spark — Llama를 버리고 밑바닥부터 새로 쌓은 모델인데, 벤치마크 숫자 자체보다 더 눈길을 끄는 게 하나 있다. Artificial Analysis 전체 평가를 마치는 데 쓴 출력 토큰이 5,800만 개. Claude는 1억 5,700만, GPT-5.4는 1억 2,000만을 썼다. 같은 시험인데 토큰을 3분의 1만 소모한 셈이다.

밑바닥부터 다시 쌓은 스택

Alexandr Wang이 Scale AI에서 건너온 지 9개월. Meta Superintelligence Labs가 내놓은 첫 모델 Muse Spark(코드네임 Avocado)는 Llama 아키텍처를 완전히 버렸다. 새 아키텍처, 새 데이터 파이프라인, 새 최적화 스택 — 전부 갈아엎었다. Llama 4 Maverick과 동급 성능을 내는 데 연산량이 10분의 1 이하라고 한다. Meta가 실제로 효율 돌파구를 찾은 건지, 아니면 Maverick 자체가 비효율적이었던 건지는 판단이 좀 필요하다. 입력은 텍스트·이미지·음성을 받지만 출력은 텍스트 전용이다.

세 가지 추론 모드 — Contemplating이 핵심이다

Muse Spark의 가장 흥미로운 설계는 추론을 세 단계로 쪼갠 구조다.

Instant — 단순 질의에 원패스로 답한다. "서울 날씨" 같은 걸 물으면 이 모드가 돌아간다. 별로 특별할 건 없다.

Thinking — 단계별 분석. 기존 reasoning 모델들이 하는 것과 비슷한 접근이다. GPT-5.4 Thinking이나 Claude의 extended thinking과 같은 계열.

Contemplating — 여기가 진짜다. 여러 에이전트를 병렬로 띄워서 추론한다. 멀티에이전트 오케스트레이션을 추론 레이어 자체에 내장한 첫 번째 메이저 모델이라고 볼 수 있다. Humanity's Last Exam에서 50.2%를 찍었는데, GPT-5.4 Pro의 43.9%를 넘겼다. FrontierScience Research도 38.3%로 나쁘지 않다. 이게 재밌는 부분인데, 개별 에이전트 하나하나의 추론 능력이 뛰어나서가 아니라 병렬 탐색과 합의 과정에서 정확도를 끌어올리는 구조다. 토큰 효율이 좋은 이유도 여기에 있을 거다 — thought compression 최적화를 강화학습에 적용해서 불필요한 추론 경로를 잘라내는 방식을 쓴다.

솔직히 Contemplating 모드가 Muse Spark에서 유일하게 "이건 새롭다"고 말할 수 있는 부분이다. 벤치마크 점수야 6개월이면 뒤집히지만, 추론 구조 자체를 바꾸는 접근은 방향 자체가 의미 있다.

벤치마크 현실

종합 점수는 Artificial Analysis Intelligence Index 기준 52. GPT-5.4와 Gemini 3.1 Pro가 57, Opus 4.6이 53이니까 사실상 5등이다. 그런데 세부 항목을 보면 편차가 상당하다.

벤치마크	Muse Spark	GPT-5.4	Gemini 3.1 Pro
HealthBench Hard	42.8	40.1	20.6
CharXiv 추론	86.4	82.8	80.2
MMMU-Pro (비전)	80.5%	—	82.4%
ARC-AGI-2	42.5	76.1	76.5
Terminal-Bench (코딩)	59.0	75.1	68.5

HealthBench Hard에서 42.8은 진짜 인상적이다. 1,000명 넘는 의사가 학습 데이터 큐레이션에 참여했다고 하는데, 그 투자가 숫자로 나온다. 과학 차트 해석(CharXiv)에서도 탑이다. 의료·과학 도메인에서 특화 모델을 만들 생각이라면 주목할 만하다.

반면 코딩은 처참하다. Terminal-Bench 59.0 vs GPT-5.4 75.1. 추상 추론도 ARC-AGI-2 42.5 vs 76.5로 격차가 거의 두 배다. Meta 스스로도 "코딩 워크플로우에서 갭이 있다"고 인정했다.

API 없는 모델은 개발자한테 없는 모델이다

소비자는 meta.ai에서 무료로 쓸 수 있고, WhatsApp·Instagram·Ray-Ban AI 글래스로 확장 예정이다. 그런데 API는 "select partners" 전용 프라이빗 프리뷰뿐. 가격표도 문서도 없다. 사흘 전 이 블로그에서 다뤘던 오픈소스 딜레마가 그대로 현실이 됐다.

지켜볼 세 가지

첫째, Contemplating 모드의 기술 상세. 멀티에이전트 병렬 추론을 프로덕션급으로 돌린 사례가 거의 없다. 구현 디테일이 논문이나 기술 블로그로 나오면 그 자체로 가치가 크다.

둘째, API 공개 시기와 가격. 토큰 효율이 진짜 3배 차이라면, 동일 품질 결과를 훨씬 저렴하게 뽑을 수 있다는 뜻이다. Gemini 3.1 Pro의 저가 전략과 정면 충돌할 수 있다.

셋째, Llama 후속의 방향. Meta는 Llama를 포기 안 했다고 하지만, R&D 리소스가 Muse 쪽으로 기운 건 분명하다. Llama 5가 Muse 아키텍처 기반으로 나올 가능성도 배제 못 한다. 오픈웨이트 생태계에 미칠 파급이 관건이다.

토큰 효율로 실마리를 보여줬고, Contemplating 모드로 새 길을 제시했다. 근데 API 없이는 의미가 반감된다 — 개발자한테 모델은 쓸 수 있어야 존재하는 거니까.

#밑바닥부터 다시 쌓은 스택

#세 가지 추론 모드 — Contemplating이 핵심이다

#벤치마크 현실

#API 없는 모델은 개발자한테 없는 모델이다

#지켜볼 세 가지

밑바닥부터 다시 쌓은 스택

세 가지 추론 모드 — Contemplating이 핵심이다

벤치마크 현실

API 없는 모델은 개발자한테 없는 모델이다

지켜볼 세 가지