Amazon Nova 2 Sonic, 가장 싸다는 말이 맞을까요?
음성 AI 요금은 GPT-Realtime의 약 13분의 1 수준입니다. 그런데 공식 기술 보고서에 나온 지연시간 수치는 경쟁사보다 느립니다. 저렴함과 품질, 두 가지를 동시에 얻을 수 있는지 직접 숫자로 확인해봤습니다.
AWS Bedrock
Speech-to-Speech
2025.12 GA
Nova 2 Sonic이 뭔지 먼저 짚어봅니다
Amazon Nova 2 Sonic은 AWS가 2025년 12월 2일 정식 출시한 음성-음성(Speech-to-Speech) 파운데이션 모델입니다. 기존에 음성 AI를 구현하려면 음성 인식(ASR) → 언어 모델(LLM) → 음성 합성(TTS) 세 가지 모델을 따로 붙여야 했는데, Nova 2 Sonic은 이 세 단계를 하나의 모델 안에서 처리합니다. AWS 공식 블로그(2025.04.10)에서 밝힌 것처럼 “음성 이해와 생성을 하나의 모델로 통합”하는 방식이라, 각 단계를 연결할 때 발생하던 맥락 손실이 구조적으로 줄어듭니다. 단일 모델이기 때문에 음색·말투·말하는 속도 같은 운율 정보가 중간에 텍스트로 변환되지 않고 그대로 다음 단계에 전달된다는 점이 핵심입니다.
1세대 Nova Sonic(2025.04)에서 2세대 Nova 2 Sonic(2025.12)으로 올라오면서 크게 달라진 항목은 세 가지입니다. 지원 언어가 영어·프랑스어·독일어·이탈리아어·스페인어 5개에서 포르투갈어와 힌디어를 더해 7개로 늘었고, 하나의 음성이 대화 중에 여러 언어를 자연스럽게 넘나드는 폴리글롯 보이스(polyglot voice) 기능이 추가됐습니다. 또 백그라운드에서 외부 도구를 호출하면서 동시에 사용자 말을 이어 받을 수 있는 비동기 도구 호출(asynchronous tool calling)도 이번 버전에서 처음 들어왔습니다. Amazon Connect, Twilio, Vonage, LiveKit, Pipecat 같은 주요 전화·미디어 플랫폼과의 공식 통합도 함께 발표됐습니다.
모델 ID는 amazon.nova-2-sonic-v1:0이며 Amazon Bedrock 콘솔에서 모델 액세스를 활성화한 뒤 기존 Nova Sonic과 동일한 양방향 스트리밍 API(InvokeModelWithBidirectionalStream)를 그대로 사용하면 됩니다. 현재 사용 가능 리전은 미국 동부(버지니아 북부), 미국 서부(오레곤), 아시아 태평양(도쿄) 세 곳입니다.
요금이 정말 싼지 — 계산해봤습니다
결론부터 말씀드리면, 요금은 확실히 쌉니다. 하지만 GPT Realtime과 단순 숫자 비교만 하면 상황을 잘못 읽기 쉽습니다. 두 서비스의 과금 단위가 다르기 때문입니다. Nova 2 Sonic은 음성 토큰 기준으로 입력 1M당 $3, 출력 1M당 $12이고(출처: deeplearning.ai, The Batch, 2025.12.10), GPT-4o Realtime은 오디오 입력 1M당 $40, 출력 1M당 $80입니다(출처: Azure OpenAI 공식 요금표). 단순 입력 기준으로 보면 Nova 2 Sonic이 약 13배 저렴합니다. 이 숫자가 실제 운영 비용에서 어떻게 바뀌는지 직접 계산해봤습니다.
💡 공식 발표 요금과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
음성 1분 대화에서 발화 토큰은 보통 150~250토큰 수준입니다. 콜센터에서 하루 10시간 운영한다고 가정하면 약 600분 분량의 음성 입력이 발생합니다. 이를 Nova 2 Sonic과 GPT Realtime 요금에 대입하면 하루 비용이 최대 13배 차이납니다. 규모가 커질수록 요금 절감 폭도 선형으로 커집니다.
| 항목 | Nova 2 Sonic | GPT-4o Realtime | 배율 |
|---|---|---|---|
| 음성 입력 (1M 토큰) | $3.00 | $40.00 | 약 13배 |
| 음성 출력 (1M 토큰) | $12.00 | $80.00 | 약 6.7배 |
| 텍스트 입력 (1M 토큰) | $0.33 | $5.00 | 약 15배 |
| 출처: deeplearning.ai The Batch (2025.12.10), Azure OpenAI 공식 요금표 / GPT-4o Realtime 요금은 오디오 기준 | |||
단, Nova 2 Sonic 요금에는 음성 토큰 외에도 도구 호출·트랜스크립션·대화 히스토리 처리 시 발생하는 텍스트 토큰 요금이 별도로 추가됩니다(출처: AWS 공식 요금 페이지, “음성-음성 파운데이션 모델 요금” 섹션 각주). 도구 호출이 많은 에이전트 시나리오에서는 순수 음성 요금만 보고 견적을 내면 실제 청구액과 차이가 날 수 있습니다. 기본 세션 길이가 8분으로 제한되는 점도 장시간 상담 시나리오에서는 세션 관리 비용이 추가 변수가 됩니다.
품질이 좋다는 근거, 직접 확인했습니다
Amazon이 공개한 Nova 2 기술 보고서(2025.12, amazon.science)에는 경쟁 모델과의 인간 평가 결과가 담겨 있습니다. 7개 언어에 걸친 음성 품질 선호도 테스트에서 Nova 2 Sonic은 GPT-Realtime(Aug’25 버전) 대비 미국 영어 남성 목소리 기준으로 53.9%의 승률을 기록했습니다. 50%를 넘겼다는 말은 절반 이상의 인간 평가자가 GPT 응답보다 Nova 2 Sonic 응답을 더 선호했다는 의미입니다.
음성 인식 정확도(ASR) 측면에서는 더 큰 차이를 보였습니다. Common Voice 데이터셋 기준으로 7개 언어 평균 단어 오류율(WER)이 Nova 2 Sonic 6.5%, GPT-Realtime 8.4%로, Nova 2 Sonic이 약 1.9%p 앞섰습니다(출처: Amazon Nova 2 Technical Report, Table 10, 2025.12). Gemini 2.5 Flash Live와 비교하면 격차가 더 벌어지는데, Gemini는 인도 영어 사용자가 말하면 힌디어로 전사해버리는 현상이 실제 벤치마크에서 관찰됐습니다. 공식 기술 보고서에 이 사실이 각주 형태로 기재돼 있는 이유는 공정한 비교를 위해 예외 조건을 명시한 것입니다.
도구 호출 정확도 벤치마크인 BFCL에서도 Nova 2 Sonic은 74.5%로 Gemini 2.5 Flash Live의 69.4%를 앞섰고, Big Bench Audio 추론 평가에서는 87.0%로 GPT-Realtime의 83.0%보다 높았습니다. 에이전트 시나리오에서 외부 API를 호출하는 정확도가 경쟁사보다 높다는 점은 콜센터처럼 여러 시스템을 연결해야 하는 환경에서 의미가 큽니다.
느리다는 단점을 공식 수치로 확인합니다
AWS 공식 보도자료에는 “업계 최고 수준의 가격 대비 성능과 낮은 지연시간”이라는 표현이 반복해서 등장합니다. 그런데 공식 기술 보고서 안에는 조용히 다른 수치가 들어 있습니다. Artificial Analysis가 독립적으로 측정한 TTFA(Time to First Audio — 사용자가 말을 마친 후 첫 응답 오디오가 나오기까지의 시간) 중앙값이 Nova 2 Sonic 1.39초, GPT-Realtime 0.98초, Gemini 2.5 Flash Live 0.63초로 나왔습니다(출처: Amazon Nova 2 Technical Report, Table 13, 2025.12). Nova 2 Sonic이 세 경쟁 모델 중 가장 느립니다.
💡 보고서에서 직접 비교표를 꺼내 놓고 보니 이게 보였습니다
가장 빠른 Gemini 2.5 Flash Live(0.63초)와 비교하면 Nova 2 Sonic의 첫 응답이 2.2배 더 걸립니다. 체감 대화 템포는 지연시간에 직결되기 때문에, 실시간 응답 속도가 중요한 고객 응대 환경에서는 이 차이가 무시하기 어렵습니다.
1세대 Nova Sonic은 고객 인지 지연시간 1.09초를 기록했고(출처: VentureBeat, 2025.04.08), 2세대 Nova 2 Sonic의 TTFA 중앙값은 1.39초입니다. 버전이 올라가면서 지연이 줄어드는 대신 오히려 늘었다는 점은 AWS가 공식 이유를 별도로 밝히지 않은 부분입니다. 비동기 도구 호출 기능 추가나 폴리글롯 보이스 처리 등이 내부적으로 추가 연산을 일으켰을 가능성이 있지만, 이유는 아직 공개되지 않았습니다. 이 점이 아쉬웠습니다.
다만 콜센터·음성 예약 시스템처럼 통화 품질보다 비용 효율이 우선인 환경에서는 1.39초 지연이 치명적이지 않을 수 있습니다. 반면 대화 템포가 자연스러워야 하는 언어 학습 앱이나 소비자용 AI 스피커처럼 즉각적인 반응이 중요한 케이스에서는 지연시간이 사용자 이탈로 이어질 수 있습니다. 어떤 시나리오에 쓸 것인지에 따라 이 수치의 무게가 달라집니다.
언어별로 품질이 달라지는 이유
Nova 2 Sonic이 7개 언어를 지원한다고 발표했지만, 언어마다 품질 격차가 있습니다. 기술 보고서 Table 11에 담긴 언어별 인간 평가 승률(vs GPT-Realtime 기준)을 보면 스페인어 68.4%, 이탈리아어 54.8%인 반면 힌디어는 42.4%, 포르투갈어는 26.3%에 그쳤습니다(출처: Amazon Nova 2 Technical Report, Table 11, 2025.12). 승률이 50% 미만이라는 말은 평가자 절반 이상이 GPT-Realtime의 응답을 더 선호했다는 의미입니다. 포르투갈어와 힌디어는 이번 버전에서 처음 추가된 언어라는 점이 품질 차이의 직접적인 원인으로 보입니다.
폴리글롯 보이스 기능은 같은 대화 안에서 언어를 전환할 수 있는 기능인데, 이 역시 품질이 고른 언어(스페인어, 이탈리아어, 독일어, 프랑스어)와 그렇지 않은 언어(힌디어, 포르투갈어) 사이에서 실제 체감 차이가 생길 수 있습니다. 다국어 고객 대응이 목적이라면 어떤 언어 조합이 가장 많은지를 먼저 파악한 뒤 Nova 2 Sonic 도입 여부를 판단하는 편이 낫습니다.
한국어는 현재 지원 언어 목록에 포함되지 않습니다. AWS는 “추가 언어 지원도 예정돼 있다”고 공식 블로그에서 밝혔지만 로드맵과 일정은 아직 공개되지 않았습니다. 한국어 음성 AI 서비스 개발이 목적이라면 현시점에서는 Nova 2 Sonic 단독으로는 구현이 불가능하고, 별도의 한국어 TTS·STT 솔루션과 조합해야 합니다.
결론: 요금이 싸면 지연을 감수해야 합니다
Nova 2 Sonic을 한 줄로 정리하면 “가격은 경쟁사 대비 최대 13배 저렴하지만, 응답 속도는 가장 느리다”입니다. 두 가지를 동시에 얻기는 어렵습니다. 비용 민감도가 높은 엔터프라이즈 콜센터나 대규모 고객 응대 자동화처럼 동시 통화 수가 많고 응답 지연 허용 범위가 넉넉한 환경에서는 Nova 2 Sonic이 강력한 선택지가 됩니다. 반면 소비자가 직접 사용하는 실시간 대화 앱이나 반응 속도가 브랜드 경험에 직결되는 서비스에서는 지연시간 1.39초가 발목을 잡을 수 있습니다.
비동기 도구 호출 기능은 생각보다 실용적입니다. 사용자가 “날씨 알려줘” 라고 말하자마자 API 조회를 백그라운드에서 시작하고, 그사이 사용자가 추가 질문을 던져도 응답이 끊기지 않습니다. 기존 방식에서는 도구 결과를 받아야 다음 말을 이어갈 수 있었는데, 이 병렬 처리가 실제 대화 흐름에서 얼마나 자연스러운지는 써봐야 알 수 있는 부분입니다. 텍스트-음성 크로스모달 전환 기능도 마찬가지로, IVR(전화 자동응답) 시스템에서 키패드 입력과 음성 입력을 섞어 쓰는 시나리오에서 코드가 상당히 단순해집니다.
솔직히 말하면, “업계 최고 수준의 낮은 지연시간”이라는 AWS 공식 표현은 오해를 부를 수 있습니다. 같은 보고서 안에 TTFA가 세 경쟁 모델 중 가장 높다는 수치가 들어 있기 때문입니다. 가격이 싸고 음성 인식 정확도가 높다는 건 맞지만, 지연시간까지 포함해서 “전반적으로 낫다”고 말하기는 어렵습니다. 용도를 먼저 정하고 그에 맞춰 선택하는 게 가장 좋습니다.
Q&A
마치며
Nova 2 Sonic의 포지션은 꽤 명확합니다. “싸고 인식이 정확한 음성 AI”입니다. GPT Realtime 대비 요금이 최대 13배 저렴하고, 7개 언어 평균 음성 인식 오류율도 낮습니다. 그런데 빠르지는 않습니다. 1.39초의 TTFA 중앙값은 같은 보고서에 실린 Gemini 2.5 Flash Live(0.63초)의 2.2배입니다. 이 트레이드오프를 어떻게 받아들이느냐가 도입 결정의 핵심입니다.
한국어를 사용하는 국내 개발자에게는 지금 당장 직접 도입이 어려운 상태입니다. 한국어 지원 시점이 아직 공개되지 않았기 때문입니다. 다만 AWS가 AI 음성 인프라를 이 방향으로 적극 투자하고 있는 흐름을 보면, 한국어 추가 지원이 언제 이뤄지는지를 지켜볼 이유는 충분히 있습니다. 지금 단계에서는 영어 기반 글로벌 서비스를 개발하거나, 대규모 콜센터 자동화처럼 비용 절감이 최우선인 팀이라면 충분히 검토해볼 만합니다.
본 포스팅 참고 자료
- AWS 한국 블로그 — Amazon Nova Sonic 공식 출시 발표 (2025.04.10) ↗ 링크
- AWS 공식 블로그 — Introducing Amazon Nova 2 Sonic (2025.12.02) ↗ 링크
- Amazon Science — Amazon Nova 2 Technical Report (2025.12.18) ↗ PDF
- deeplearning.ai The Batch — Nova 2 Family 가격·성능 요약 (2025.12.10) ↗ 링크
- Amazon Bedrock 공식 요금 페이지 ↗ 링크
- VentureBeat — Nova Sonic 1세대 지연시간 수치 (2025.04.08) ↗ 링크
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Amazon Bedrock 요금은 리전 및 서비스 티어에 따라 다를 수 있으므로, 최신 요금은 AWS 공식 요금 페이지에서 직접 확인하시기 바랍니다. 본 포스팅은 2025.12.02 GA 기준으로 작성됐으며 이후 업데이트 내용은 반영돼 있지 않습니다.


댓글 남기기