GPT-5.4가 코딩 벤치마크를 갈아엎고, Claude Opus 4.6이 SWE-bench에서 신기록을 찍고, Gemini가 100만 토큰 컨텍스트를 자랑하던 그 주에 — 이 모델들이 전부 합쳐서 1%도 못 넘긴 벤치마크가 나왔다. 인간은 100%를 푸는 문제에서. 좀 충격적인 이야기다.

ARC-AGI-3가 뭔데

3월 25일, ARC Prize가 Y Combinator에서 ARC-AGI-3를 공개했다. François Chollet이 2019년에 만든 ARC 벤치마크의 세 번째 버전인데, 이번엔 완전히 다른 물건이 됐다.

이전 버전(ARC-AGI-1, 2)은 정적인 그리드 퍼즐이었다. "입력 패턴을 보고 출력 패턴을 맞춰라" 식의 문제. Gemini 3.1 Pro가 ARC-AGI-2에서 77.1%를 찍고, Deep Think 모드로는 84.6%까지 올라갔다. 거의 풀린 벤치마크처럼 보였다.

ARC-AGI-3는 그런 게 아니다. 64×64 그리드 위에서 돌아가는 턴 기반 비디오 게임이다. 규칙 설명 없음. 목표 설명 없음. 승리 조건 없음. 150개 이상의 수제 환경에 1,000개 이상의 레벨이 있고, 에이전트가 직접 탐색하면서 세계의 규칙을 알아내고, 목표를 스스로 설정해야 한다.

리더보드 현황

솔직히 이 숫자가 좀 잔인하다.

시스템 방식 점수
인간 (1,200+ 플레이어) 두뇌 100%
StochasticGoose CNN + RL 12.58%
Blind Squirrel 상태 그래프 탐색 6.71%
Explore It Till You Solve It 프레임 그래프 3.64%
Gemini 3.1 Pro LLM 0.37%
GPT-5.4 LLM 0.26%
Claude Opus 4.6 LLM 0.25%
Grok-4.20 LLM 0.00%

Grok은 문자 그대로 한 문제도 못 풀었다. 그리고 1등은 LLM이 아니라 CNN과 강화학습 조합이다.

ARC-AGI-2와 비교하면

flowchart LR subgraph V2["ARC-AGI-2 (정적)"] A2[입력 그리드] --> B2[패턴 인식] B2 --> C2[출력 그리드 생성] end subgraph V3["ARC-AGI-3 (인터랙티브)"] A3[환경 관찰] --> B3[탐색 & 실험] B3 --> C3[규칙 추론] C3 --> D3[목표 설정] D3 --> E3[전략 실행] E3 --> F3[피드백 반영] F3 --> B3 end

핵심 차이는 피드백 루프다. ARC-AGI-2는 한 번 보고 한 번 답하면 끝이었다. ARC-AGI-3는 수백 턴에 걸쳐서 환경과 상호작용하면서 학습해야 한다. LLM이 잘하는 "패턴 매칭"과는 완전히 다른 능력을 요구한다.

ARC-AGI-2 ARC-AGI-3
형식 정적 그리드 퍼즐 인터랙티브 게임
최고 AI 점수 24% 12.58%
LLM 최고 점수 84.6% 0.37%
평가 기준 정확도 + 비용 행동 효율성
인간 점수 ~85% 100%

LLM 점수가 84.6%에서 0.37%로 떨어졌다. 소수점 이하가 아니라 두 자릿수가 통째로 날아간 거다.

왜 LLM은 이걸 못 할까

이유가 꽤 근본적이다.

토큰 문제부터. 64×64 그리드를 수백 턴 동안 관찰하면 수백만 토큰이 생긴다. 컨텍스트 윈도우가 아무리 넓어도 이건 비현실적이다.

하지만 진짜 문제는 아키텍처다. LLM은 기본적으로 "다음 토큰 예측기"다. 패턴을 기억하고 재현하는 데는 탁월하지만, ARC-AGI-3가 요구하는 네 가지 능력은 근본적으로 다른 것이다:

  1. 탐색 — 환경에 직접 개입해서 정보를 수집

  2. 세계 모델링 — 환경의 역학 구조를 내부에 구축

  3. 목표 설정 — 아무도 안 알려줬는데 스스로 뭘 해야 하는지 파악

  4. 전략 수정 — 실패에서 배워서 접근 방식을 바꿈

Reddit r/MachineLearning에서 누군가 이렇게 표현했다: "고급 추론 모델은 투두리스트를 부탁했는데 양자역학부터 설명하려 드는 박사 같다." 맞는 말이다. 지식이 많은 것과 새로운 환경에서 적응하는 것은 완전히 다른 능력이다.

오히려 작동하는 접근법

재밌는 건, 1등을 한 StochasticGoose의 접근법이 LLM보다 훨씬 단순하다는 거다.

CNN으로 상태 전이를 예측하는 액션 모델을 학습시키고, 레벨 완료 신호만으로 sparse reward를 받고, 해시 테이블로 중복 상태를 피하면서, 레벨 사이에 반복적으로 재학습한다. 결과: 12.58%. GPT-5.4보다 48배 높은 점수.

이게 시사하는 바가 크다. 현재 프론티어 모델에 수십억 달러를 쏟아붓고 있는데, 단순한 CNN + RL 조합이 "새로운 것을 배우는 능력"에서는 압도적으로 우위에 있다. 규모의 문제가 아니라 접근 방식의 문제라는 뜻이다.

개발자로서 뭘 봐야 하나

ARC-AGI-3는 $200만 상금의 공개 대회다. 11월 2일까지 제출하면 된다.

참가 조건이 흥미로운데:

  • 모든 솔루션은 CC0 또는 MIT-0으로 오픈소스 필수

  • Kaggle 평가 시 인터넷 차단 — 클라우드 API 호출 불가

  • 공식 툴킷이 MIT 라이선스로 공개되어 있고, 로컬에서 2,000+ FPS로 돌아감

즉 OpenAI API를 호출하는 방식으로는 참가 자체가 불가능하다. 로컬에서 돌아가는 작은 모델, RL 에이전트, 또는 완전히 새로운 접근법이 필요하다. 오히려 GPU 두세 장으로 실험하는 개인 개발자에게 유리한 구조다.

6월 30일과 9월 30일에 마일스톤 어워드(각 37,500)가 있고, 최종 1등은 40,000, 100%를 달성하면 그랜드 프라이즈 $700,000이다.

현재 LLM 패러다임의 한계가 이렇게 깔끔하게 드러난 벤치마크는 드물다. AGI 논쟁에 관심 없더라도, "AI가 진짜 못 하는 게 뭔지" 알고 싶다면 ARC-AGI-3 환경을 직접 플레이해보는 걸 추천한다. 인간인 당신은 100% 풀 수 있으니까.