로이터가 4월 4일에 확인했다. DeepSeek V4가 Huawei의 Ascend 950PR 칩에서 돌아간다. 1조 파라미터짜리 모델이 NVIDIA 생태계 완전히 밖에서 구동되는 건 역사상 처음이다. GPU 스펙 뉴스처럼 보이지만, 이건 AI 인프라의 판도가 흔들리는 신호탄이다.
미국 제재가 만든 우회로
DeepSeek 입장에서 NVIDIA는 사실상 선택지가 아니다. 미국의 대중국 반도체 수출 규제가 A100, H100, 그리고 최신 B200까지 전부 막고 있다. 남은 옵션은 Huawei가 자체 설계한 Ascend 시리즈뿐인데, 여기엔 큰 문제가 하나 있다 — CUDA 생태계가 없다. PyTorch, JAX, 그리고 수많은 ML 라이브러리가 CUDA에 의존하는 상황에서, Ascend로 전환한다는 건 소프트웨어 스택을 바닥부터 다시 쌓는다는 뜻이다.
그런데 DeepSeek이 이걸 해냈다.
MoE 아키텍처가 열어준 문
핵심은 V4의 Mixture-of-Experts 구조에 있다. 전체 파라미터는 1조 개지만, 토큰 하나를 처리할 때 실제로 활성화되는 건 약 370억 개뿐이다. 256개 전문가(expert) 풀에서 매번 8개 전문가 + 1개 공유 전문가, 총 9개만 골라서 쓴다. 나머지 247개는 그냥 자고 있다.
이게 왜 Ascend에서 유리하냐면 — 컴퓨팅 비용은 전체 파라미터가 아니라 활성 파라미터에 비례한다. 370억 파라미터급 연산이면 Ascend 950PR로도 충분히 감당 가능한 영역이다. 만약 V4가 dense 모델이었다면, 1조 파라미터를 매 토큰마다 전부 돌려야 하니 Ascend에서 실용적인 추론 속도를 뽑기 어려웠을 것이다.
여기에 Engram 메모리 아키텍처가 한몫한다. 비싼 추론 연산은 GPU에서, 팩트 검색 같은 가벼운 작업은 압축된 KV 캐시(engram)에서 처리하는 계층형 구조 덕분에 메모리 대역폭 요구량이 크게 줄었다. Ascend의 약점인 메모리 대역폭을 아키텍처 레벨에서 우회한 셈이다. 100만 토큰 컨텍스트에서 Needle-in-a-Haystack 정확도 97%라는 수치가 여기서 나온다.
그리고 mHC(Manifold-Constrained Hyper-Connections)라는 기술이 1조 파라미터 규모에서 학습 안정성을 잡아준다. MoE를 이 스케일까지 키우면 학습이 불안정해지는 게 보통인데, mHC가 하이퍼커넥션을 매니폴드 공간 안에서 제약해서 그라디언트 폭발을 억제한다. DeepSeek이 1월에 낸 논문에서 공개한 기법이다.
개발자가 봐야 할 숫자들
API 가격부터 보자.
| 항목 | DeepSeek V4 | GPT-5.4 / Claude Opus 급 |
|---|---|---|
| 입력 토큰 | $0.30 / 1M | $6~8 / 1M |
| 출력 토큰 | $0.50 / 1M | $15~24 / 1M |
| 캐시 히트 입력 | $0.03 / 1M | 해당 없음 또는 비공개 |
대략 20~30배 차이다. 물론 가격만으로 모델을 고르면 안 되지만, 토큰당 비용이 이 정도면 "일단 V4로 전부 보내고 결과 괜찮으면 유지"하는 전략이 현실적이 된다.
벤치마크는 좀 복잡하다. DeepSeek이 주장하는 내부 수치는 MATH 92%, HumanEval 90%, SWE-bench 81%, MMLU 89%다. 수학에서는 GPT-5.4(90%)보다 앞서고, 코딩에서는 Claude Opus(92%)에 살짝 밀리며, 종합 지식은 GPT에 2%p 뒤진다. 이게 재밌는 부분인데 — 이 숫자들은 전부 독립 검증이 안 됐다. NxCode, Macaron 등 여러 매체가 동일하게 "unverified"라고 명시하고 있다. 셀프 벤치마크는 이력서의 자기소개서 같은 거다. 참고만 하자.
로컬 추론도 가능성이 열려 있다. INT4 양자화 기준으로 RTX 5090 한 장(32GB VRAM)에 올릴 수 있다고 한다. INT8이면 RTX 4090 두 장이 필요하다. 오픈 웨이트가 Apache 2.0으로 풀리면 셀프 호스팅이 가능해지는데, 정확한 릴리즈 날짜는 아직 미정이다.
솔직히 걱정되는 것
두 가지다. 첫째, CUDA 없는 세계에서 개발자 경험이 어떤지 아직 알 수 없다. 벤치마크 숫자가 좋아도 PyTorch 커스텀 op 하나 못 돌리면 실무에서는 쓸모가 없다. Ascend의 CANN 프레임워크가 CUDA 수준의 생태계를 갖추려면 시간이 필요하다. 둘째, 데이터 프라이버시. 중국 서버를 경유하는 API에 민감한 코드를 보내는 게 괜찮은지는 각 조직이 판단해야 할 문제다.
NVIDIA가 유일한 선택지이던 시대가 끝나가고 있다. 그게 좋은 일인지는 — 여러분이 어느 쪽 GPU를 들고 있느냐에 따라 다를 것이다.