OpenAI Realtime API, $0.60이면 싸다고요?

Published on

in

OpenAI Realtime API, alt=

2026.03.18 기준
gpt-realtime / gpt-realtime-mini 기준
⚠️ 2026.03.31 과금 단위 변경 예고

OpenAI Realtime API 비용, $0.60이면 싸다고요?

가격표만 보면 분명히 저렴합니다. 그런데 실제 청구서를 받아본 개발자들은 고개를 젓습니다. 공식 문서에서 확인한 과금 구조를 그대로 풀어봤습니다.

가격표에서 잘 안 보이는 숫자가 있습니다

OpenAI의 공식 가격 페이지에서 gpt-realtime-mini 오디오 입력 요금을 보면 100만 토큰당 $0.60이라고 표시됩니다. 텍스트 기반 모델과 비교하면 나쁘지 않아 보입니다. 그런데 가격 옆에 함께 표시된 항목 하나를 놓치는 경우가 많습니다. 바로 오디오 출력 요금입니다.

같은 모델의 오디오 출력은 100만 토큰당 $2.40입니다. 입력 대비 4배입니다. 음성 에이전트는 사용자 말을 듣고 다시 말로 대답하는 구조이기 때문에, 오디오 출력 토큰은 반드시 발생합니다. 가격표의 $0.60은 입력 절반만 본 숫자이고, 현실적인 세션에서는 입력과 출력을 합산한 비용을 봐야 합니다. 이 차이를 인식하고 예산을 잡는 팀이 생각보다 많지 않습니다.

💡 오디오 출력 요금이 입력의 4배인 구조는, 챗봇처럼 텍스트만 쓰던 모델 가격과 단순 비교가 안 됩니다. 공식 가격 페이지에서 입력과 출력 항목을 각각 확인하는 습관이 필요합니다.
(출처: OpenAI 공식 가격 페이지, 2026.03.18 확인)

▲ 목차로 돌아가기

오디오 토큰 1개가 몇 ms인지 알면 계산이 달라집니다

OpenAI 공식 문서에 따르면 Realtime API의 오디오 토큰 계산 방식은 다음과 같습니다.

구분 오디오 토큰 환산
사용자 입력(User Input) 100ms = 1 토큰
어시스턴트 출력(Output) 50ms = 1 토큰

이 수치가 의미하는 것을 직접 계산해 봅니다. 1분짜리 통화를 가정하면, 사용자가 30초 말하고 AI가 30초 말한다고 단순 가정할 때:

입력 오디오 토큰: 30초 × 1,000ms ÷ 100ms = 300 토큰
출력 오디오 토큰: 30초 × 1,000ms ÷ 50ms = 600 토큰
합계: 900 토큰 (1분 통화 기준)
gpt-realtime-mini 기준 비용: 입력 $0.00018 + 출력 $0.00144 ≈ 분당 $0.0016 (시스템 프롬프트 없는 이상적인 경우)

이것만 보면 확실히 저렴합니다. 그런데 실제 세션 구조에서는 ‘시스템 프롬프트’와 ‘대화 누적 토큰’이 붙기 때문에 위 숫자는 하한선일 뿐입니다. 이 계산이 중요한 이유는, 거꾸로 분당 실제 청구 금액을 역산해 예산 상한을 잡는 기준점이 되기 때문입니다.

▲ 목차로 돌아가기

시스템 프롬프트가 길수록 요금이 눈덩이처럼 불어납니다

Realtime API의 과금 구조에서 가장 크게 놓치는 부분이 여기에 있습니다. OpenAI 공식 문서는 이를 명확히 설명합니다. 매번 응답(Response)을 생성할 때마다 전체 대화 이력이 입력 토큰으로 전송됩니다. 다시 말해, 대화가 쌓일수록 매 턴의 입력 비용이 기하급수적으로 늘어납니다.

게다가 시스템 프롬프트는 모든 턴마다 반복 전송됩니다. 고객서비스 에이전트에 통상적으로 넣는 1,000단어 수준의 지침이 있다면, 이것이 대화 내내 입력 토큰에 포함됩니다. 실제 측정 데이터(eesel AI, 2025.11.13)에 따르면 시스템 프롬프트가 없을 때 gpt-realtime-mini의 실제 분당 비용은 약 $0.33, 1,000단어 시스템 프롬프트를 붙이면 약 $0.33으로 2배 이상이 됩니다.

⚠️ gpt-4o-realtime(대형 모델) 기준에서는 더 극적입니다. 같은 측정에서 시스템 프롬프트 없이 분당 약 $0.18이던 것이, 1,000단어 프롬프트 추가 시 분당 약 $1.63으로 뛰었습니다. 약 9배 증가입니다. 에이전트를 배포하기 전에 시스템 프롬프트 길이가 곧 운영 비용이라는 점을 먼저 따져야 합니다.
(출처: eesel.ai 벤치마크, 2025.11 / OpenAI 공식 Realtime 비용 가이드)

이 구조는 일반 Chat Completions API와 다릅니다. Chat API는 대화 이력을 클라이언트가 직접 관리해 필요한 것만 보낼 수 있지만, Realtime API는 서버 측 Conversation이 자동으로 쌓이고 매 응답에 포함됩니다. 그래서 장시간 통화일수록 비용 곡선이 더 가팔라집니다.

▲ 목차로 돌아가기

gpt-4o-realtime-preview 쓰고 있다면 지금 확인할 게 있습니다

많은 개발자들이 지금도 구형 모델인 gpt-4o-realtime-preview를 그대로 사용하고 있습니다. OpenAI가 2025년 8월 28일 공식 발표문에서 밝힌 내용에 따르면, 새로운 GA 모델 gpt-realtime은 구형 preview 모델 대비 20% 가격 인하가 적용됩니다.

모델 오디오 입력 (1M 토큰) 오디오 출력 (1M 토큰)
gpt-4o-realtime-preview (구형) $40.00 $80.00
gpt-realtime (GA, 현재) $32.00 $64.00
gpt-realtime-mini (GA, 현재) $0.60 (텍스트) $2.40 (텍스트)

가격 단위를 보면 gpt-realtime(대형)은 오디오 토큰 기준, gpt-realtime-mini는 텍스트/오디오 각각 별도 요금으로 구조가 다릅니다. 단순히 숫자만 비교하면 완전히 다른 단위를 보는 셈이 되니 주의가 필요합니다. 구형 preview 모델을 코드에서 여전히 호출하고 있다면, GA 모델로 전환하는 것만으로도 동일한 기능에서 20% 절감이 됩니다.

💡 OpenAI 공식 발표문(2025.08.28)에 따르면 gpt-realtime은 gpt-4o-realtime-preview 대비 20% 인하된 요금이 적용됩니다. 아직 preview 모델을 쓰고 있다면 모델 문자열 하나만 바꾸면 됩니다.
(출처: OpenAI “Introducing gpt-realtime and Realtime API updates”, 2025.08.28)

▲ 목차로 돌아가기

2026년 3월 31일, 컨테이너 과금 단위가 바뀝니다

OpenAI 공식 가격 페이지에는 지금 이 시점(2026.03.18)에도 진행 중인 변경 사항이 공지되어 있습니다. 내장 도구(Built-in Tools) 컨테이너의 과금 단위가 2026년 3월 31일부터 바뀝니다.

컨테이너 크기 현재 2026.03.31 이후
1GB $0.03 / 컨테이너 $0.03 / 20분당 세션
4GB $0.12 / 컨테이너 $0.12 / 20분당 세션
16GB $0.48 / 컨테이너 $0.48 / 20분당 세션
64GB $1.92 / 컨테이너 $1.92 / 20분당 세션

단위 금액 자체는 동일하지만 과금 기준이 ‘컨테이너 1개 생성’에서 ’20분 세션 단위’로 변경됩니다. 현재는 컨테이너를 한 번 생성하면 그 자체로 과금되지만, 3월 31일 이후에는 20분이 넘는 세션이라면 다음 20분 단위로 추가 청구됩니다. 20분이 넘어가는 상담 세션을 운영하는 서비스라면 예산 계획을 다시 점검해야 합니다.

⚠️ 예시: 4GB 컨테이너 기준 30분짜리 세션 1건 — 현재는 $0.12, 3월 31일 이후에는 $0.24(20분+10분 → 2회 과금)가 됩니다. 세션 시간이 20분을 넘기는 사용 패턴이 있다면 영향을 받습니다.
(출처: OpenAI 공식 가격 페이지, 2026.03.18 확인)

▲ 목차로 돌아가기

비용을 실제로 줄이는 방법은 공식 문서에 있습니다

OpenAI 공식 Realtime 비용 가이드에는 비용을 구체적으로 줄이는 세 가지 전략이 명시되어 있습니다. 이 내용이 일반 블로그에 잘 다뤄지지 않는 이유는 구현 난이도가 있기 때문입니다.

프롬프트 캐싱은 자동 적용되지만, 조건이 있습니다

Realtime API는 프롬프트 캐싱을 자동으로 지원합니다. 이전 턴과 동일한 입력 토큰 구간이 있으면 캐시된 가격이 적용됩니다. gpt-realtime 기준 캐시 오디오 입력 요금은 $0.40(일반 $32.00 대비 98.75% 절감)입니다. 단, 대화 중간에 시스템 프롬프트를 수정하거나, 오래된 메시지를 삭제하면 캐시가 초기화됩니다. 세션 중 지침을 변경하는 구조라면 캐싱 효과가 거의 없어집니다.

대화 이력 직접 삭제가 비용을 실질적으로 낮춥니다

공식 문서에서 권장하는 방법은 오래된 대화 항목을 conversation.item.delete 이벤트로 직접 삭제하는 것입니다. 이 경우 이전 메시지를 요약(summary)으로 교체하는 방식이 함께 권장됩니다. 대화 이력이 길어져 입력 토큰이 모델의 컨텍스트 한도에 근접하면, 서버가 자동 truncation을 실행하는데 이것도 캐시를 깨뜨립니다.

mini 모델로 시작해 필요한 경우에만 대형 모델로 올리세요

공식 가이드는 명확히 권고합니다. 개발 초기에는 gpt-realtime(대형)으로 프롬프트와 기능을 완성한 다음, 최적화 단계에서 gpt-realtime-mini를 시도하라고 합니다. 처음부터 mini를 쓰다가 지시 이행(instruction-following)이나 함수 호출(function calling) 품질 문제로 대형 모델로 다시 전환하는 경우가 많고, 그 과정에서 비용과 시간이 더 들기 때문입니다.

▲ 목차로 돌아가기

자주 묻는 것들

Q1. gpt-realtime과 gpt-4o-realtime-preview는 같은 모델인가요?

다릅니다. gpt-realtime은 2025년 8월 28일 정식 출시(GA)된 모델이고, gpt-4o-realtime-preview는 그 이전의 베타 버전입니다. GA 모델은 오디오 입력 기준 100만 토큰당 $32로, preview($40) 대비 20% 저렴합니다. API 코드에서 모델 문자열을 확인해 보는 것이 먼저입니다. (출처: OpenAI 공식 발표, 2025.08.28)

Q2. 무료 티어나 무료 한도가 있나요?

현재 공식 가격 페이지 기준으로 Realtime API에는 별도의 무료 한도가 없습니다. API 키 생성 시 주어지는 일반 신규 크레딧(존재할 경우)으로는 사용 가능하지만, Realtime API 전용 무료 할당량은 확인되지 않습니다. 최신 정책은 OpenAI 공식 가격 페이지에서 확인할 것을 권장합니다.

Q3. 전화 연동(SIP)도 같은 요금 구조인가요?

SIP 연결도 동일한 토큰 기반 요금 체계가 적용됩니다. 다만 SIP는 VoIP 전화망과 연동되는 특성상 네트워크 지연이나 코덱 변환 과정에서 예상보다 오디오 토큰이 더 발생할 수 있다는 점은 공식 문서에서도 유의 사항으로 명시되어 있습니다.

Q4. 캐싱은 항상 적용되나요?

자동 적용되지만 “best-effort(최선의 노력)” 방식이라 보장되지 않습니다. 대화 이력을 수정하거나 시스템 프롬프트를 세션 중에 변경하면 캐시가 초기화됩니다. 대화 초반부(지침·툴 정의)는 변경하지 않을수록 캐시 히트율이 올라갑니다. (출처: OpenAI Realtime Costs 공식 문서)

Q5. 3월 31일 이후 컨테이너 변경, 모든 사용자에게 영향이 있나요?

내장 도구(Built-in Tools) 컨테이너를 사용하는 경우에 해당합니다. 컨테이너 없이 순수 WebRTC/WebSocket으로 Realtime API를 사용하는 경우에는 해당 변경이 적용되지 않습니다. 운영 중인 방식을 먼저 확인할 필요가 있습니다.

▲ 목차로 돌아가기

마치며 — 저렴하다는 말이 절반만 맞는 이유

OpenAI Realtime API 비용 구조를 정리하고 나면, ‘생각보다 비쌀 수 있다’는 말이 왜 반복되는지 보입니다. 토큰 단가는 낮지만, 오디오 출력 요금이 입력의 4배이고, 시스템 프롬프트가 매 턴마다 과금되며, 대화가 쌓일수록 입력 토큰이 계속 늘어나는 구조입니다. 거기에 3월 31일부터 컨테이너 과금 단위도 바뀝니다.

솔직히 말하면, 이 API를 시작하는 가장 빠른 방법은 Realtime Playground에서 직접 세션을 돌려보고 Logs 탭에서 실제 토큰 수를 확인하는 것입니다. 공식 문서도 그 방법을 권장합니다. 예산 시뮬레이션 없이 배포부터 하는 경우에 예상 밖의 청구가 생기는 것은 거의 공식에 가깝습니다.

gpt-4o-realtime-preview 대신 gpt-realtime으로의 전환, 시스템 프롬프트 경량화, 프롬프트 캐싱 조건 유지 — 이 세 가지만 챙겨도 운영 비용이 의미 있게 달라집니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 가격 페이지 — https://openai.com/ko-KR/api/pricing/
  2. OpenAI “Introducing gpt-realtime and Realtime API updates” (2025.08.28) — https://openai.com/ko-KR/index/introducing-gpt-realtime/
  3. OpenAI 공식 Realtime API 비용 관리 가이드 — https://platform.openai.com/docs/guides/realtime-costs
  4. OpenAI Realtime API 공식 가이드 — https://platform.openai.com/docs/guides/realtime
  5. eesel.ai GPT Realtime Mini 분당 비용 벤치마크 (2025.11.13) — https://www.eesel.ai/blog/gpt-realtime-mini-pricing

본 포스팅은 2026년 3월 18일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 최신 정보는 OpenAI 공식 페이지에서 반드시 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기