gpt-realtime-1.5 가격, 공식 수치 3가지 직접 봤습니다

Published on

in

gpt-realtime-1.5 가격, 공식 수치 3가지 직접 봤습니다

2026.03.21 기준
gpt-realtime-1.5 기준
Realtime API

gpt-realtime-1.5 가격, 공식 수치 3가지 직접 봤습니다

OpenAI가 2026년 2월 23일 공개한 gpt-realtime-1.5. 음성 AI 에이전트의 완성도가 올라갔다는 평이 많지만, 막상 가격표를 열어보면 생각했던 것과 전혀 다른 구조가 나옵니다. 오디오 토큰 가격만 봐도 텍스트의 8배, 시스템 프롬프트 하나로 비용이 800% 이상 뛰는 경우도 있습니다. 공식 문서와 실측 데이터를 기준으로 3가지 수치를 정리했습니다.

$32
오디오 입력/1M 토큰
8배
텍스트 대비 오디오 입력 단가
66%
파트너사 인간 연결률(↑43.7%)

gpt-realtime-1.5가 무엇이고, 왜 지금 중요한가

OpenAI는 2026년 2월 23일, Realtime API를 통해 gpt-realtime-1.5를 공개했습니다. 이 모델은 기존 음성 AI처럼 음성 인식(STT) → 텍스트 처리 → 음성 합성(TTS)로 이어지는 3단 파이프라인을 거치지 않습니다. 오디오 신호를 바로 이해하고 오디오로 답하는 통합형 단일 구조를 채택했습니다. 덕분에 응답 지연이 줄어들고, 억양·호흡·웃음처럼 말 속에 담긴 비언어 정보까지 더 정교하게 반영할 수 있습니다.

지시문 이행, 도구 호출, 다국어 정확도 세 가지를 집중적으로 개선했다고 OpenAI는 밝혔습니다. 내부 평가 기준 추론 능력 5% 향상, 영숫자 전사 정확도 10.23% 개선, 지시문 따라가기 7% 향상이라는 수치가 공개됐습니다. 숫자 자체가 크지 않아 보일 수 있지만, 실제 고객 전화 응대나 예약 시스템처럼 정밀한 지시 이행이 요구되는 환경에서는 이 몇 퍼센트가 통화 완료 여부를 바꿉니다. (출처: AI Times, 2026.02.24)

그리고 이 모델의 가격 구조는 기존 텍스트 기반 모델과 전혀 다른 논리로 작동합니다. 여기서부터가 핵심입니다.

▲ 목차로 돌아가기

오디오 토큰은 텍스트 토큰과 같은 가격이 아닙니다

💡 공식 가격표와 실제 과금 방식을 같이 놓고 보니 생각했던 것과 다른 부분이 보였습니다. “토큰당 몇 달러”라는 숫자는 같은 형식이지만, 오디오와 텍스트는 단가가 완전히 다른 기준을 씁니다.

OpenAI 공식 API 가격표(2026년 3월 기준)에서 gpt-realtime-1.5의 모달리티별 가격을 꺼내 보면 다음과 같습니다.

▲ gpt-realtime-1.5 vs gpt-realtime-mini 공식 가격 비교 (출처: OpenAI API Pricing, 2026.03 기준)
모델 모달리티 입력 /1M 토큰 캐시 입력 출력 /1M 토큰
gpt-realtime-1.5 오디오 $32.00 $0.40 $64.00
텍스트 $4.00 $0.40 $16.00
이미지 $5.00 $0.50
gpt-realtime-mini 오디오 $10.00 $0.30 $20.00
텍스트 $0.60 $0.06 $2.40

계산해 보면 gpt-realtime-1.5의 오디오 입력 단가($32)는 텍스트 입력 단가($4)의 정확히 8배입니다. 오디오 출력 역시 같은 비율입니다. 달리 말하면, 텍스트 API 기반으로 비용을 추산한 뒤 “음성으로 바꾸면 비슷하겠지”라고 생각하면 실제 청구서가 8배 더 나올 수 있습니다. (출처: OpenAI API Pricing, developers.openai.com/api/docs/pricing)

⚠️ 오디오 입력 $32 vs 텍스트 입력 $4. 같은 “토큰”이지만 단가가 8배 다릅니다. 텍스트 기반 예산으로 음성 앱을 설계하면 수치가 맞지 않습니다.

캐시 입력 가격은 반대로 역전이 일어납니다. 텍스트 캐시 입력은 $0.40인데 오디오 캐시 입력도 $0.40으로 동일합니다. 즉, 캐시가 히트되는 순간 오디오의 비용 절감 폭이 텍스트보다 훨씬 큽니다(원가 대비 98.75% 절감). 시스템 프롬프트를 캐싱 가능한 구조로 설계하면 비용 구조가 크게 달라진다는 뜻입니다. 이 점을 설명한 한국어 자료가 현재 없습니다.

▲ 목차로 돌아가기

시스템 프롬프트 하나로 비용이 어떻게 달라지나

💡 OpenAI 공식 가격표에는 나와 있지 않지만, Realtime API의 실제 과금 흐름을 따라가 보면 시스템 프롬프트가 모든 턴(turn)마다 입력 토큰으로 반복 청구된다는 구조가 보입니다.

eesel.ai가 OpenAI Playground를 사용해 실측한 데이터를 보면 시스템 프롬프트 길이가 비용에 얼마나 직접적인 영향을 미치는지 숫자로 확인할 수 있습니다. 아래는 gpt-4o-mini-realtime과 gpt-4o-realtime(각각 gpt-realtime-mini, gpt-realtime-1.5의 전 세대에 해당)에서 시스템 프롬프트 유무에 따른 분당 실측 비용입니다. (출처: eesel.ai 실측 보고서, http://www.eesel.ai/blog/gpt-realtime-mini-pricing)

▲ 시스템 프롬프트 유무에 따른 분당 실측 비용 (eesel.ai 실측, gpt-4o-realtime 계열 기준)
모델 및 설정 분당 평균 비용 비고
mini (시스템 프롬프트 없음) 약 $0.16 실제 비즈니스 사용 불가
mini (1,000단어 시스템 프롬프트) 약 $0.33 비용 2배 이상 상승
full (시스템 프롬프트 없음) 약 $0.18 mini와 큰 차이 없음
full (1,000단어 시스템 프롬프트) 약 $1.63 시스템 프롬프트 없을 때 대비 800%+

full 모델에서 1,000단어 짜리 시스템 프롬프트를 달았더니 분당 비용이 $0.18에서 $1.63으로 뛰었습니다. 시스템 프롬프트 없는 상태 대비 약 806% 상승입니다. 이 수치가 의미하는 건 단순합니다. 시스템 프롬프트는 한 번 설정하면 끝이라고 느껴지지만, 실제로는 매 대화 턴마다 입력 토큰으로 새로 청구됩니다. 10분짜리 통화에서 40번 이상 주고받으면, 1,000단어짜리 프롬프트가 40번 곱해집니다.

gpt-realtime-1.5는 전 세대(gpt-4o-realtime)보다 오디오 단가가 낮아졌지만 이 구조 자체는 동일합니다. 시스템 프롬프트를 짧게 유지하거나, OpenAI의 프롬프트 캐싱 기능을 활용해 캐시 히트를 높이는 것이 비용 관리의 핵심입니다. 캐시 히트 상태에서 오디오 입력 단가는 $0.40으로, 정가 대비 98.75% 절감됩니다.

▲ 목차로 돌아가기

gpt-realtime-mini와 비교하면 어느 쪽이 맞는 선택인가

gpt-realtime-1.5와 gpt-realtime-mini는 같은 Realtime API 위에서 동작하지만, 오디오 입력 단가가 $32 vs $10으로 3.2배 차이가 납니다. 텍스트 입력 역시 $4 vs $0.60으로 6.7배 차이입니다. 그렇다면 무조건 mini가 유리할까요? 꼭 그렇지 않습니다.

gpt-realtime-1.5의 지시문 이행 능력과 도구 호출 정밀도가 높아진 덕분에, 복잡한 업무 흐름을 처리할 때 통화 완료율이 달라집니다. 단순 안내 응대라면 mini가 충분하지만, 예약 변경·주문 처리·조건부 에스컬레이션처럼 다단계 판단이 필요한 경우에는 full 모델이 더 적은 실패 재시도를 만들어 총비용이 오히려 낮아질 수 있습니다. 재시도가 곧 추가 토큰 비용이기 때문입니다.

💡 “복잡한 업무”에는 1.5가, “단순 안내”에는 mini가 맞습니다. 단가 차이만 보고 결정하면 실패율 기반 재시도 비용을 놓칩니다.

실측 기준으로 볼 때, gpt-realtime-mini는 시스템 프롬프트 없는 상황에서 분당 약 $0.16이지만, 실제 비즈니스 시스템 프롬프트(약 1,000단어) 적용 시 분당 약 $0.33까지 올라갑니다. gpt-realtime-1.5는 구형 full 모델 기준 시스템 프롬프트 포함 분당 약 $1.63이었으나, 신형인 1.5 버전은 오디오 단가 인하로 이보다 낮게 나올 것으로 추정됩니다. OpenAI가 별도 실측치를 공식 발표하지 않은 부분입니다.

▲ 목차로 돌아가기

파트너 실측 데이터로 본 성능 개선의 의미

💡 OpenAI가 발표한 벤치마크 수치(+5%, +7%)는 작아 보이지만, AI 전화 통화 서비스에서 파트너사가 실측한 데이터를 같이 놓고 보면 이 수치가 비즈니스 지표에서 어떤 크기로 나타나는지 달라 보였습니다.

OpenAI의 파트너사 젠스파크(Genspark)는 AI 전화 통화 서비스에서 gpt-realtime-1.5를 알파 테스트한 결과를 공개했습니다. 인간 연결률(Human Connection Rate)이 43.7%에서 66%로 상승했습니다. (출처: AI Times, 2026.02.24) 인간 연결률은 초기 인사 단계를 넘어 실질적인 대화로 진입한 비율을 뜻합니다. 43.7% → 66%는 약 51% 개선이며, 이는 전체 통화의 절반 이상이 이전에는 인사 단계에서 끊겼다는 의미이기도 합니다.

같은 테스트에서 95건의 채점 통화 중 97.9%가 만점 평가를 받았고, 대화 완료율은 33%에서 38%로, 문제 발생률은 4.2%에서 2.1%로 절반 수준으로 떨어졌습니다. 문제 발생률 감소는 추가 재시도·에러 처리 비용과 직결됩니다. 즉, 성능 개선이 비용 절감으로도 연결되는 구조입니다.

B2B 음성 AI 서비스를 도입할 때 단순히 “모델 성능이 몇 % 올랐다”는 벤치마크보다 이런 비즈니스 지표가 훨씬 직관적인 판단 기준이 됩니다. 식당 예약, 고객 응대, 주문 처리처럼 초기 인사 단계를 넘겨야 가치를 만드는 서비스라면 연결률 수치를 먼저 확인하는 게 맞습니다.

▲ 목차로 돌아가기

STT+LLM+TTS 파이프라인 방식이 여전히 유효한 경우

gpt-realtime-1.5가 통합형 구조를 채택했다고 해서 기존 파이프라인 방식이 무조건 열등한 것은 아닙니다. STT+LLM+TTS 구조는 각 단계를 독립적으로 교체·최적화할 수 있다는 장점이 있습니다. 예를 들어 전사(STT) 정확도만 높이고 싶을 때는 전사 모델만 바꾸면 되고, 텍스트 처리 부분에만 다른 LLM을 끼울 수도 있습니다.

반면 gpt-realtime-1.5는 음성 입출력을 모델 내에서 직접 처리하는 단일 구조이기 때문에, 전사 결과를 텍스트로 뽑아 외부 시스템에 기록하거나 특정 도메인 용어 사전을 강제 삽입하는 방식이 파이프라인만큼 자유롭지 않습니다. Azure OpenAI의 공식 릴리스 노트에서도 “개발자가 음성 우선 애플리케이션에 필요한 짧은 대기 시간 실시간 상호 작용을 유지하면서 명령 팔로우, 다국어 지원 및 도구 호출을 집중적으로 개선했다”고 설명하고 있습니다. (출처: Azure OpenAI 릴리스 노트, learn.microsoft.com, 2026.02)

따라서 실시간 대화 응답성이 중요하고 시스템 통합 복잡도가 낮은 서비스라면 gpt-realtime-1.5가 적합합니다. 반대로 전사 데이터를 CRM에 실시간 기록하거나 특수 용어 처리가 필요한 의료·법률 분야라면 파이프라인 방식과의 하이브리드가 더 현실적일 수 있습니다. OpenAI가 어느 방식이 더 낫다고 공식 답변을 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. gpt-realtime-1.5와 gpt-realtime-mini는 어떻게 다른가요?
오디오 입력 단가가 $32 vs $10으로 3.2배 차이가 납니다. 성능 측면에서 1.5가 지시문 이행과 도구 호출 정밀도에서 우위에 있고, 복잡한 업무 흐름에 적합합니다. 단순 안내나 FAQ 응답처럼 판단 복잡도가 낮은 경우에는 mini가 비용 대비 충분한 성능을 냅니다. (출처: OpenAI API Pricing, developers.openai.com, 2026.03 기준)
Q2. 오디오 토큰과 텍스트 토큰이 같은 기준으로 측정되나요?
측정 단위는 같지만 단가가 다릅니다. 오디오 1M 토큰당 입력 $32, 텍스트는 $4입니다. 오디오 1초 분량이 몇 토큰에 해당하는지는 OpenAI 공식 문서에서 별도로 안내하고 있으며, 약 1초에 10~15토큰 수준으로 알려져 있습니다. (OpenAI가 공식 확정 수치를 공개하지 않은 부분이 있어 실측 기반으로 추정합니다.)
Q3. 시스템 프롬프트 비용을 줄이는 방법이 있나요?
두 가지 방법이 현실적입니다. 첫째, 시스템 프롬프트 자체를 최대한 짧게 유지합니다. 불필요한 예시나 반복 지시를 제거하면 매 턴마다 청구되는 토큰 수가 줄어듭니다. 둘째, OpenAI의 프롬프트 캐싱을 활용합니다. 캐시 히트 상태에서 오디오 입력 단가는 $0.40으로 정가 대비 98.75% 절감됩니다. (출처: OpenAI API Pricing, developers.openai.com, 2026.03 기준)
Q4. 한국어 음성 인식 정확도는 어떤가요?
OpenAI가 gpt-realtime-1.5 공개 시 다국어 정확도 향상을 강조했지만, 한국어만을 대상으로 한 공식 벤치마크는 공개되지 않았습니다. Azure OpenAI 릴리스 노트에서는 “다국어 지원”을 개선 항목으로 명시했으나 언어별 세부 수치는 공개하지 않았습니다. (출처: learn.microsoft.com, Azure OpenAI 릴리스 노트, 2026.02)
Q5. 개인 개발자가 바로 써볼 수 있나요?
OpenAI API 키가 있으면 별도 승인 없이 바로 사용할 수 있습니다. OpenAI Platform에서 Realtime API 항목으로 접근 가능하며, Azure OpenAI 경로로도 사용 가능합니다. 단, 오디오 토큰 단가가 높아 테스트용으로도 예산을 미리 설정해 두는 편이 안전합니다. (출처: OpenAI Platform, platform.openai.com)

▲ 목차로 돌아가기

마치며

gpt-realtime-1.5는 실시간 음성 AI의 완성도를 실제로 끌어올린 모델이라는 건 파트너 데이터들이 말해 줍니다. 연결률이 43.7%에서 66%로 뛰었다는 수치는 모델 스펙지에 없는, 실제 서비스 현장에서 나온 숫자입니다. 그게 설득력 있습니다.

다만 도입 전에 가격 구조를 반드시 짚어야 합니다. 오디오 토큰이 텍스트의 8배라는 점, 시스템 프롬프트가 매 턴마다 반복 청구되는 구조, 그리고 캐시 히트 여부가 비용을 98%까지 달라지게 한다는 점. 이 세 가지가 gpt-realtime-1.5를 둘러싼 비용 계산의 핵심입니다.

솔직히 말하면, 지금 당장 서비스 규모가 크지 않다면 gpt-realtime-mini로 먼저 시작해 실제 분당 비용을 측정한 다음, 업무 복잡도가 높은 케이스에서만 1.5로 올리는 순서가 현실적입니다. 가격표를 보지 않고 “음성 AI니까 실시간이 좋겠지”로 결정하면 예상보다 빠르게 예산이 소진됩니다.

📌 본 포스팅 참고 자료

  1. OpenAI API Pricing 공식 페이지 — developers.openai.com/api/docs/pricing/
  2. AI Times — “오픈AI, ‘gpt-리얼타임-1.5’ API 공개” (2026.02.24) — aitimes.com
  3. Azure OpenAI 릴리스 노트 (2026년 2월 항목) — learn.microsoft.com
  4. eesel.ai — GPT Realtime Mini 분당 실측 비용 분석 — eesel.ai/blog/gpt-realtime-mini-pricing
  5. OpenAI Realtime API 공식 가이드 — platform.openai.com/docs/guides/realtime


본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격 정보는 OpenAI 공식 가격 페이지에서 최신 정보를 확인하세요. 본 포스팅은 특정 서비스의 유료 홍보와 무관합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기