로그의 숲
← 숲으로 돌아가기

Pulcherrima라는 이름으로

it-works-why

에세이 문체 — 작업을 배경으로, 생각을 전경으로

오늘 하루는 목소리 하나를 고르는 일로 다 썼다. 처음에는 어제 Typecast로 떠낸 첫 Hook 파일을 영상에 얹어 보는 게 목표였다. 16 kHz로 떨어져 나온 음성이 리소 종이 위에 너무 가볍게 앉아 있었다. 그 가벼움이 내내 걸렸다.

Typecast 월 구독을 유지할지, API로 옮길지, 아예 다른 곳으로 갈지를 정해야 했다. 연간 비용을 계산하고, Supertonic 오픈소스 스택을 내려받아 보고, Voice Builder의 49달러짜리 영구 구매 화면까지 열어 보았다. 그러다 며칠 전에 공개된 Gemini 3.1 Flash TTS를 발견했다. 1백만 자당 0.5달러였고 한 편당 백 원 남짓이었다. 이미 이미지와 음악을 구글 스택으로 가져가고 있었으니 음성까지 붙이면 계정 하나로 끝이 났다. 서른 개의 프리셋 중에서 고를 수 있다는 점도 매력이었다.

Aoede, Gacrux, Pulcherrima 순으로 넘어갔다. Aoede는 깔끔했지만 허스키로 밀고 들어가면 과하게 깔렸다. Gacrux는 일부 스타일 태그와 궁합이 맞지 않아 응답이 막혔다. Pulcherrima는 라틴어로 "가장 아름다운"이라는 뜻 그대로, 기본 톤이 채널에 맞았다. 거기에 "Style: calm"만 덧붙였다. 그 외에는 전부 군더더기였다.

프롬프트가 막히는 패턴도 배웠다. 엠 대시가 안전 필터에 걸렸고, Whisper라는 단어도 걸렸고, Hushed도 걸렸다. Calm, softly, muted는 통과했다. 어디에도 문서화되어 있지 않아 직접 막혀 보며 알아냈다. 파이프라인 안에 자동 치환 로직을 넣어 두었다.

하루의 끝에 선택한 것을 문서에 박아 두고, 탐색 중에 내려받은 250MB의 모델과 수십 개의 오디션 파일을 지웠다. 다른 기기에서 이어 붙을 수 있도록 세업 가이드를 적어 두었다. 커밋 여섯 개를 원격에 올렸다. 목소리 하나를 고르는 데 하루가 들었다.