지난주 Google이 Gemini API 위에 음악 생성 모델 Lyria 3 Pro를 올렸다. 재밌는 건 인터페이스다 — 텍스트 생성하던 그 generateContent 엔드포인트 하나로 48kHz 스테레오 음악이 나온다. 별도 SDK도, 별도 인증도 필요 없다.

30초에서 3분으로

이전 Lyria 3 Clip은 30초짜리 고정 MP3만 뱉었다. Pro는 최대 약 2분(API 문서 기준, Google 공식 블로그에선 3분이라 쓰지만)의 MP3 또는 WAV를 만든다.

진짜 의미 있는 변화는 구조 제어다. [Verse], [Chorus], [Bridge] 같은 섹션 태그에 타임스탬프까지 붙여서 프롬프트를 쓰면, 모델이 구간별로 다른 악기 편성과 에너지를 반영한다. 예를 들어 [Intro 0:00] 피아노 솔로, 느리게[Verse 0:15] 드럼과 베이스 추가[Chorus 0:45] 풀 밴드, 에너지 업 식으로 써주면 실제로 곡의 전개가 달라진다. Suno나 Udio 웹 UI에서 마우스로 드래그하며 수동 조절하던 걸 API 콜 하나에 담을 수 있게 된 거다.

한 가지 더 — 이전에는 템포, 키, 박자를 직접 지정할 수 없었는데, Pro에서는 프롬프트 안에 120 BPM, key of Am 같은 힌트를 넣으면 꽤 잘 따라온다. 물론 정확한 MIDI 수준 제어와는 거리가 있지만, "대충 이 분위기로"에서 "이 구조와 이 템포로"까지 올라온 것만으로도 자동화 파이프라인에 넣기 훨씬 편해졌다.

코드는 이게 전부다

from google import genai
from google.genai import types

client = genai.Client()
response = client.models.generate_content(
    model="lyria-3-pro-preview",
    contents="비 오는 카페에서 들을 법한 재즈 피아노 트리오, 차분하고 약간 우울한 무드",
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO", "TEXT"],
    ),
)

for part in response.parts:
    if part.inline_data is not None:
        with open("jazz_cafe.mp3", "wb") as f:
            f.write(part.inline_data.data)

responseModalities"AUDIO"를 넣는 것 외에 텍스트 생성과 완전히 같은 패턴이다.

그래서 뭘 만들 수 있나

솔직히, 음악 API가 열렸다고 모든 앱에 BGM을 달자는 이야기는 아니다. 다만 확실히 쓸 만한 케이스가 있다.

게임이 가장 먼저 떠오른다. 전투 진입 시 텐션 높은 일렉트로닉, 마을 복귀 시 잔잔한 어쿠스틱으로 런타임 전환. 기존에는 FMOD나 Wwise 같은 미들웨어에 미리 녹음한 스템을 쌓아두고 크로스페이드하는 방식이었는데, Lyria Pro면 게임 상태를 프롬프트에 실시간으로 반영해서 완전히 새로운 트랙을 생성할 수 있다. 레이턴시가 문제될 수 있지만, 미리 다음 씬의 음악을 백그라운드로 생성해두는 프리페치 전략이면 충분히 커버된다.

영상 자동화 파이프라인에서 저작권 걱정 없는 BGM을 붙이는 것도 당장 된다. 이미지→음악 멀티모달 입력을 쓰면 더 재밌다 — 풍경 사진은 앰비언트, 콘서트 사진은 라이브 느낌으로 나온다. 유튜브 쇼츠 자동 생성 도구를 만든다고 치면, 썸네일 이미지(최대 10장)를 Lyria에 넘겨 분위기에 맞는 배경음악까지 한 번에 뽑는 파이프라인이 가능하다.

팟캐스트 인트로/아웃트로 자동 생성도 쉽게 그려진다. 에피소드 주제를 프롬프트에 넣으면 매회 다른 분위기의 징글이 나오니까.

Suno보다 못하지만 그게 포인트가 아니다

음질과 창의성만 놓고 보면 Suno v4가 아직 한 수 위라는 평이 많다. 근데 Google의 무기는 거기에 없다. Gemini API 키 하나로 텍스트, 이미지, 코드, 비디오, 음악이 전부 같은 SDK에서 호출된다. Vertex AI에도 이미 올라가 있다. 멀티모달 원스톱 — 그 포지셔닝 자체가 무기다.

모든 출력엔 SynthID 워터마크가 자동으로 들어가고, 특정 아티스트 보이스 클로닝은 차단된다. 상업적 사용 조건은 Preview 단계라 좀 모호하니, 프로덕션에 넣기 전에 약관은 한 번 읽어봐야 한다.

Google AI Studio에서 API 키만 있으면 바로 돌려볼 수 있다.