OpenAI가 Whisper로 음성 인식 시장을 평정한 줄 알았다. 근데 그 Whisper를 꺾은 모델이 OpenAI 파트너인 Microsoft 내부에서 나왔다. 아이러니하다고? 이게 2026년 AI 업계의 현실이다.
130조 원의 독립선언
Microsoft가 4월 2일 공개한 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2는 단순한 신모델 발표가 아니다. 2025년 11월 무스타파 술레이만이 이끄는 MAI Superintelligence 팀이 출범한 이후 나온 첫 번째 결과물이다.
배경을 짚으면 이렇다. Microsoft는 2025년에 OpenAI와 계약을 재협상해서 "독자적으로 경쟁 모델을 만들 수 있는 자유"를 확보했다. 분기당 AI 투자 규모가 375억 달러에 달하는데, 그 돈을 전부 OpenAI 의존 구조에 걸어둘 수는 없으니까. MAI 3종은 "우리도 자체 파운데이션 모델을 만든다"는 첫 깃발 꽂기다.
재밌는 건 아직 LLM은 아니라는 점이다. 텍스트 생성 모델은 2027년 목표로 개발 중이고, 이번에 먼저 나온 건 음성·이미지 쪽 특화 모델이다. 전략적으로 OpenAI와 정면충돌을 피하면서 멀티모달 기반을 깔아놓는 수순으로 읽힌다.
Whisper 킬러의 실력
MAI-Transcribe-1이 제일 눈에 띈다. FLEURS 벤치마크 25개 언어 기준으로 현존하는 음성 인식 모델 중 WER(단어 오류율)이 가장 낮다.
| 모델 | 평균 WER |
|---|---|
| MAI-Transcribe-1 | ~3.9% |
| GPT-Transcribe | ~4.2% |
| ElevenLabs Scribe v2 | ~4.3% |
| Gemini 3.1 Flash | ~4.9% |
Whisper-large-v3는 25개 언어 전체에서 MAI에 졌다. 수치만 보면 GPT-Transcribe와 0.3%p 차이라 "그게 그거 아닌가" 싶을 수 있다. 근데 진짜 차이는 비영어권에서 벌어진다. Whisper large v3는 영어 밖에서 정확도가 눈에 띄게 떨어지는 게 오래된 약점이었는데, MAI-Transcribe-1은 정확히 그 갭을 파고든 모델이다. Gemini 3.1 Flash 대비로도 22개 언어에서 앞선다.
속도와 가격도 매력적이다. Azure 기존 Fast 옵션 대비 배치 처리 속도 2.5배, GPU 비용은 경쟁 모델 대비 약 50% 절감이라는 게 공식 주장이다. 오디오 시간당 $0.36. 콜센터 녹취나 미팅 자막 파이프라인을 운영하는 팀이라면 비용 구조가 꽤 달라진다.
한 가지 짚을 부분이 있다. 잡음 환경에서의 강건성을 강하게 어필하고 있는데 — 카페 소음, 사무실 배경음, 대화 겹침 같은 상황을 명시적으로 학습했다고 한다. 솔직히 이건 실제로 돌려봐야 안다. 벤치마크 WER은 대체로 깨끗한 오디오 기준이니까, 프로덕션 환경에서의 실력은 직접 검증이 필요하다.
나머지 두 모델은?
MAI-Voice-1은 TTS 모델이다. 단일 GPU에서 60초 분량 음성을 1초 안에 생성하고, 10초짜리 샘플만으로 목소리 복제가 가능하다. 프리셋 보이스 700개 이상, 100만 문자당 $22. ElevenLabs 직접 겨냥한 제품이다.
MAI-Image-2는 텍스트-이미지 모델로, Arena.ai 리더보드 3위(1위 Gemini 3.1 Flash, 2위 GPT Image 1.5). 이전 세대 대비 생성 속도 2배 향상, 이미지 내 텍스트 렌더링 정확도 115포인트 개선이 핵심 업그레이드다. Bing과 PowerPoint에 순차 적용 중이라는데, 이건 일반 사용자보다 기업 내부 워크플로우에 먼저 파급력이 올 것 같다.
지금 써볼 수 있나
세 모델 모두 Microsoft Foundry에서 퍼블릭 프리뷰로 접근 가능하다. MAI Playground에서 무료 테스트도 된다. Transcribe-1과 Voice-1은 Azure Speech SDK와 직접 통합돼 있어서, 이미 Azure 기반으로 음성 파이프라인을 운영 중인 팀이라면 마이그레이션 부담이 적다.
다만 정식 GA는 2026년 4분기 예정이다. 프로덕션에 바로 태우기엔 이르고, 지금은 자기 데이터로 품질 검증하는 단계다. 특히 한국어 WER이 어떤지는 공식 숫자가 아직 없으니, 한국어 음성 처리가 핵심인 서비스라면 반드시 직접 벤치를 돌려보는 게 맞다.
이번 릴리스에서 가장 의미 있는 건 모델 성능 자체보다 방향 전환이다. Microsoft가 OpenAI에 올인하던 시대는 끝났고, 자체 모델 라인업을 깔기 시작했다는 시그널. 2027년에 자체 LLM까지 나오면 OpenAI 입장에서 가장 큰 고객이 가장 큰 경쟁자가 되는 셈이다.