AI 안전을 가장 중시한다는 회사가 CMS 설정 하나 안 잠가서 3,000개 내부 파일을 인터넷에 뿌렸다. 그 파일 속에 있던 게 Anthropic이 "역대 가장 강력한 모델"이라고 부르는 Claude Mythos, 코드네임 Capybara다. 아이러니의 교과서 같은 사건을 뜯어본다.

Opus 위에 새 계급이 생겼다

Capybara는 Opus의 다음 버전이 아니다. 기존 3단 체계 위에 4번째 티어가 얹혀졌다.

티어 포지셔닝 현재 최신
Haiku 빠르고 저렴 Claude Haiku 4.5
Sonnet 균형형 Claude Sonnet 4.6
Opus 최고 성능 Claude Opus 4.6
Capybara Opus 이상 Claude Mythos (미공개)

Opus 4.6 대비 "코딩, 학술 추론, 사이버보안에서 극적으로 높은 점수"라고만 밝혔고, 공개 벤치마크 숫자는 없다. "step change"라는 표현만 반복될 뿐.

사이버보안 이야기가 좀 무섭다

솔직히 이게 이번 유출의 핵심이다. 내부 블로그 초안에 따르면 Mythos는 "현재 어떤 AI 모델보다 사이버 역량이 훨씬 앞서 있"고, "방어자의 노력을 넘어서는 속도로 취약점을 익스플로잇할 수 있는 모델 물결의 전조"라고 적혀 있었다.

잠깐 이 문장을 곱씹어볼 필요가 있다. "방어자의 노력을 넘어서는 속도." Anthropic이 자기 모델에 대해 직접 쓴 표현이다. 취약점 패치 주기가 보통 며칠에서 몇 주인데, 모델이 몇 초 안에 공격 벡터를 찾아낸다면 패치가 나오기 전에 이미 게임이 끝난다. 기존 보안 운영의 시간 구조 자체가 무너지는 시나리오다. Anthropic의 RSP(Responsible Scaling Policy)에서 ASL-3 이상 모델은 사이버 역량 평가를 통과해야 배포 가능하다고 규정하는데, Mythos가 그 임계값에 얼마나 근접했는지, 혹은 넘었는지가 가장 궁금한 대목이다.

그리고 이 수준의 사이버 역량을 가진 모델의 존재를 세상에 알린 방법이 CMS 폴더를 안 잠근 것이다. Fortune 보도에 따르면 거의 3,000개의 미공개 에셋이 암호화 없이 검색 가능한 상태로 노출됐다. 방어자에게 준비 시간을 주겠다며 조심스럽게 출시하겠다던 회사가, 자기 CMS부터 못 지킨 셈이다. Futurism은 이걸 "역대 가장 아이러니한 유출"이라고 불렀다.

개발자가 체크해둘 것

Mythos는 아직 일부 얼리 액세스 고객에게만 제공 중이다. API 가격, 모델 ID, 컨텍스트 윈도우 전부 미공개. 당장 코드를 바꿀 건 없다.

다만 티어가 4단으로 늘어나면 API 가격표 구조가 바뀐다. Opus 기준으로 비용을 설계해둔 프로젝트라면 Capybara의 가격 대비 성능을 따져봐야 할 시점이 온다. 사이버보안 쪽은 더 직접적이다 — 모델이 취약점 찾는 속도가 사람보다 빠르다면 운영 코드의 보안 점검을 미루는 건 바보짓이다.

"step change"

Anthropic이 직접 쓴 단어다. 점진적 개선이 아니라 질적 도약. Opus 4.6이 SWE-bench Verified에서 80% 넘기는 수준인 걸 감안하면 Mythos의 수치가 궁금해지는 건 당연하다. 유출은 사고였지만, 그 사고가 보여준 건 명확하다 — Anthropic은 지금 가장 강력한 모델을 갖고 있고, 그걸 어떻게 세상에 내놓을지 아직 정리가 안 됐다.