OpenAI가 Sora를 접었다. 3월 24일 조용히 올라온 공지 하나로 AI 영상 생성의 가장 화려한 실험이 막을 내렸다. 하루 인퍼런스 비용 15M, 누적 매출 2.1M — 이 숫자 앞에서 사후부검이라는 말이 무색할 정도로 사인이 명확하다.

가계부를 열어보면

10초짜리 표준 영상 하나 생성에 약 1.30의 컴퓨팅 비용이 들었다. 사용자는 ChatGPT Plus 구독에 포함이니 추가 과금이 안 된다. 이 구조에서 하루 15M이 증발했다. 연환산하면 약 $5.4B — OpenAI 전체 연매출의 20%가 넘는 금액이다.

반면 해당 서비스의 총 매출은 $2.1M이었다. 하루 지출이 전체 수입의 7배를 넘긴 셈이다. 다운로드는 2025년 11월 피크 대비 66% 빠졌고, 디즈니와의 $1B 파트너십은 돈이 오가기도 전에 증발했다. 디즈니 측 코멘트? "OpenAI의 비디오 생성 사업 철수 결정을 존중한다." 외교적이다 못해 냉담하다.

앱은 4월 26일, API는 9월 24일에 완전 종료된다.

연구용 아키텍처를 제품에 박으면 생기는 일

이게 재밌는 부분인데, 비용이 이렇게 폭발한 건 단순히 "영상 생성이 비싸서"가 아니다.

원래 디퓨전 트랜스포머 아키텍처의 한계를 탐색하는 연구 프로젝트였다. "세상에서 가장 좋은 AI 영상을 만들 수 있을까?"가 출발점이었지, "10초에 $0.10 이하로 서빙할 수 있을까?"가 아니었다. 그 연구 결과물을 소비자 제품으로 포장해서 수백만 명한테 열어버린 거다.

반면 경쟁 서비스들은 처음부터 인퍼런스 효율을 설계 목표로 잡았다. Kling 2.5는 비슷한 품질의 영상을 45-75초 만에 뽑는다. OpenAI의 모델은 같은 결과에 3-8분이 걸렸다. 생성 시간이 곧 GPU 점유 시간이고, 그게 직접 비용이다. 아키텍처 레벨에서 이미 게임이 끝나 있었는데, 마케팅으로 덮으려 한 셈이다.

트레이닝은 한 번 하면 끝이다. 하지만 서빙은 사용자가 버튼을 누를 때마다 발생한다. 이 차이를 과소평가하면 $5.4B짜리 수업료를 내게 된다.

개발자가 새겨야 할 세 가지

짧게 가자.

첫째, 인퍼런스 경제학이 제품의 생사를 결정한다. 모델 성능 벤치마크만 보는 습관에서 벗어나야 한다. "이 모델 서빙하는 데 호출당 얼마냐"가 프로덕션에서는 MMLU 점수보다 중요하다.

둘째, 단일 API 의존은 재앙이다. 지금 r/SoraRefugees에서 프로덕션 파이프라인에 해당 API를 박아넣은 크리에이터들이 6개월 내 마이그레이션할 대안을 찾고 있다. 멀티벤더 전략이 번거로워 보여도, 한 벤더가 서비스를 접는 순간 그 번거로움이 얼마나 싼 보험이었는지 깨닫게 된다.

셋째, 바이럴은 PMF가 아니다. 고양이가 서핑보드 타는 영상이 트위터에서 1억 뷰를 찍었다고 그게 제품-시장 적합성의 증거는 아니다.

Sora 팀의 다음 행선지

연구팀이 해체된 건 아니다. "Spud"라는 코드명으로 로보틱스 쪽 월드 시뮬레이션에 피벗했다. 물리 환경이 어떤 동작에 어떻게 반응하는지 예측하는 모델이다. 로봇 한 대가 잘못된 예측으로 $50K짜리 장비를 부수면 그건 직접 손실이니까, 엔터테인먼트 영상과는 호출당 가치가 차원이 다르다. 합리적인 피벗이다.

이전할 곳

영상 생성 API에서 빠져나와야 하는 개발자를 위해 정리했다.

서비스 10초 영상 비용 특징
Runway Gen-4 Turbo ~$0.50 품질 최우선, 프로 크리에이터 타겟
Kling 2.5 ~$0.30 속도와 가성비 균형
Google Veo 3 비공개 포토리얼리스틱 최강자
LTX 2.3 (오픈소스) 셀프호스팅 시 무료 22B 파라미터, 4K@50fps

특히 LTX 2.3은 셀프호스팅이 가능하다. 플랫폼 리스크 제로. 이번에 데인 개발자라면 한번 볼 만하다.

결국 "누가 더 좋은 모델을 만드느냐"에서 "누가 더 싸게 돌리느냐"로 경쟁 축이 바뀌고 있다. Sora가 그 전환점의 가장 비싼 증거물이 됐다.