4월이 되도록 안 나오던 DeepSeek V4가 드디어 윤곽을 드러냈다. 1조 파라미터 MoE에 텍스트·이미지·영상 생성까지 — 스펙시트만 보면 올해 가장 야심찬 오픈소스 모델이다. 근데 솔직히 파라미터 숫자 자체는 이제 아무도 안 놀란다. 진짜 흥미로운 건 100만 토큰 컨텍스트를 구현한 방식인데, 어텐션이 아니라 해시 테이블이다.

Engram — "기억"과 "사고"를 분리하다

트랜스포머의 고질적인 문제가 하나 있다. 컨텍스트가 길어지면 어텐션 연산이 제곱으로 뛴다. 128K까지는 어떻게든 버텼는데, 100만 토큰을 풀 어텐션으로 처리하려면 메모리와 연산 비용이 감당할 수 있는 수준을 넘어선다.

DeepSeek이 올해 1월에 공개한 Engram은 접근 자체를 바꿨다. 핵심 아이디어는 단순하다: 정적인 패턴 검색과 동적인 추론은 본질적으로 다른 연산이니까, 아예 다른 하드웨어에서 처리하자.

구체적으로 보면, Engram은 DRAM에 해시 기반 룩업 테이블을 구성한다. 모델이 "이 토큰에 관련된 정보가 뭐였지?"를 찾을 때 어텐션 레이어를 통째로 건너뛰고 해시 키로 직접 조회한다. 시간 복잡도가 O(n²)에서 O(1)로 바뀌는 거다.

이게 되면 뭐가 좋냐 — 컨텍스트가 10만이든 100만이든 검색 비용이 동일하다. DeepSeek 팀이 찾아낸 최적 구성도 흥미로운데, 전체 스파스 파라미터 중 20-25%를 메모리 룩업에, 나머지 75-80%를 추론 연산에 할당하는 비율이 가장 효율적이라고 한다. 이걸 "Sparsity Allocation Law"라고 부른다.

결과는 상당히 인상적이다. Needle-in-a-Haystack 테스트에서 100만 토큰 기준 97% 정확도. 같은 조건에서 기존 어텐션 방식은 84.2%에서 멈췄다. 단순히 "더 긴 컨텍스트를 지원합니다"가 아니라 긴 컨텍스트에서 정보를 실제로 찾아낸다는 점이 핵심이다.

V3에서 뭐가 달라졌나

V3 V4 (예상)
총 파라미터 671B ~1T
활성 파라미터 37B 37B
컨텍스트 128K 1M
SWE-bench Verified ~49% 80%+
멀티모달 텍스트 텍스트+이미지+영상
가격 (MTok) $0.27 $0.30

활성 파라미터가 동일한 37B인 점이 핵심이다. 총 파라미터는 거의 두 배인데 추론 비용은 비슷하다는 뜻이다. 늘어난 분량은 전부 MoE 전문가 수와 Engram 메모리 쪽으로 갔다. $0.30/MTok이라는 가격이 사실이면, 100만 토큰 컨텍스트를 이 가격에 쓸 수 있는 모델은 현재 시장에 없다.

멀티모달은 "네이티브"라는데

V4의 또 다른 차별점은 멀티모달 통합 방식이다. 기존 모델 대부분이 텍스트 모델에 비전 어댑터를 볼트온(bolt-on)하는 구조인 반면, V4는 사전학습 단계부터 텍스트·이미지·영상을 함께 학습했다고 한다. 이미지를 보고 코드를 짜거나, 텍스트 프롬프트에서 영상을 만드는 크로스모달 추론에서 구조적 이점이 있을 수 있다.

다만 "네이티브 멀티모달"이라는 표현 자체가 요즘 마케팅에서 남발되고 있어서, 생성 품질은 실물이 나온 뒤에 판단할 문제다.

Ascend로 1T를 학습시켰다

조용히 지나가기 쉬운 디테일 하나. V4는 Huawei Ascend 910B와 Cambricon MLU 칩으로 학습됐다. NVIDIA가 아니다. 1조 파라미터 모델을 Ascend로 학습 완료했다는 건 중국의 자체 칩 생태계가 프로덕션에 도달했다는 가장 직접적인 증거다. 소비자 추론은 RTX 5090 한 장(INT4) 또는 RTX 4090 두 장(INT8)으로 가능하다고 하니, Apache 2.0 라이선스까지 걸리면 셀프호스팅 쪽에서 상당히 진지하게 검토할 모델이 될 거다.

그래서 언제 나오나

이게 제일 답답한 부분이다. V4의 가장 큰 리스크는 기술이 아니라 출시 일정이다. 원래 2월에 나올 예정이었는데, 음력 설 연휴를 지나고, 3월 초를 지나고, 3월 말을 지나면서 계속 밀렸다. 3월 31일 기준에도 공식 출시는 없었고, "4월 중"이라는 모호한 타임라인만 남아 있다.

벤치마크도 대부분 내부 유출이나 비공식 소스에서 나온 숫자라 공식 발표 때 달라질 수 있다. SWE-bench 80%+가 검증되면 Opus 4.6의 80.9%와 정면으로 비교되는 구간이라 의미가 상당하겠지만, 아직은 기다리는 수밖에 없다.

그 사이에 Engram 아키텍처 코드는 이미 GitHub에 공개돼 있다. 100만 토큰 시대가 어텐션이 아니라 해시 룩업에서 열릴 수 있다는 가능성 — 모델 출시 전이라도 먼저 들여다볼 가치가 있다.