AI 안전을 가장 중시한다는 회사가 CMS 설정 하나 안 잠가서 3,000개 내부 파일을 인터넷에 뿌렸다. 그 파일 속에 있던 게 Anthropic이 "역대 가장 강력한 모델"이라고 부르는 Claude Mythos, 코드네임 Capybara다. 아이러니의 교과서 같은 사건을 뜯어본다.
Opus 위에 새 계급이 생겼다
Capybara는 Opus의 다음 버전이 아니다. 기존 3단 체계 위에 4번째 티어가 얹혀졌다.
| 티어 | 포지셔닝 | 현재 최신 |
|---|---|---|
| Haiku | 빠르고 저렴 | Claude Haiku 4.5 |
| Sonnet | 균형형 | Claude Sonnet 4.6 |
| Opus | 최고 성능 | Claude Opus 4.6 |
| Capybara | Opus 이상 | Claude Mythos (미공개) |
Opus 4.6 대비 "코딩, 학술 추론, 사이버보안에서 극적으로 높은 점수"라고만 밝혔고, 공개 벤치마크 숫자는 없다. "step change"라는 표현만 반복될 뿐.
사이버보안 이야기가 좀 무섭다
솔직히 이게 이번 유출의 핵심이다. 내부 블로그 초안에 따르면 Mythos는 "현재 어떤 AI 모델보다 사이버 역량이 훨씬 앞서 있"고, "방어자의 노력을 넘어서는 속도로 취약점을 익스플로잇할 수 있는 모델 물결의 전조"라고 적혀 있었다.
잠깐 이 문장을 곱씹어볼 필요가 있다. "방어자의 노력을 넘어서는 속도." Anthropic이 자기 모델에 대해 직접 쓴 표현이다. 취약점 패치 주기가 보통 며칠에서 몇 주인데, 모델이 몇 초 안에 공격 벡터를 찾아낸다면 패치가 나오기 전에 이미 게임이 끝난다. 기존 보안 운영의 시간 구조 자체가 무너지는 시나리오다. Anthropic의 RSP(Responsible Scaling Policy)에서 ASL-3 이상 모델은 사이버 역량 평가를 통과해야 배포 가능하다고 규정하는데, Mythos가 그 임계값에 얼마나 근접했는지, 혹은 넘었는지가 가장 궁금한 대목이다.
그리고 이 수준의 사이버 역량을 가진 모델의 존재를 세상에 알린 방법이 CMS 폴더를 안 잠근 것이다. Fortune 보도에 따르면 거의 3,000개의 미공개 에셋이 암호화 없이 검색 가능한 상태로 노출됐다. 방어자에게 준비 시간을 주겠다며 조심스럽게 출시하겠다던 회사가, 자기 CMS부터 못 지킨 셈이다. Futurism은 이걸 "역대 가장 아이러니한 유출"이라고 불렀다.
개발자가 체크해둘 것
Mythos는 아직 일부 얼리 액세스 고객에게만 제공 중이다. API 가격, 모델 ID, 컨텍스트 윈도우 전부 미공개. 당장 코드를 바꿀 건 없다.
다만 티어가 4단으로 늘어나면 API 가격표 구조가 바뀐다. Opus 기준으로 비용을 설계해둔 프로젝트라면 Capybara의 가격 대비 성능을 따져봐야 할 시점이 온다. 사이버보안 쪽은 더 직접적이다 — 모델이 취약점 찾는 속도가 사람보다 빠르다면 운영 코드의 보안 점검을 미루는 건 바보짓이다.
"step change"
Anthropic이 직접 쓴 단어다. 점진적 개선이 아니라 질적 도약. Opus 4.6이 SWE-bench Verified에서 80% 넘기는 수준인 걸 감안하면 Mythos의 수치가 궁금해지는 건 당연하다. 유출은 사고였지만, 그 사고가 보여준 건 명확하다 — Anthropic은 지금 가장 강력한 모델을 갖고 있고, 그걸 어떻게 세상에 내놓을지 아직 정리가 안 됐다.