gpt-realtime-1.5 기준
2026.03.31 요금 구조 변경 예정
OpenAI Realtime API 요금, 직접 계산했더니 예상의 8배였습니다
공식 문서에 나온 토큰 단가만 보고 예산을 잡으면 실제 청구서에서 당황하게 됩니다. 오디오 토큰은 텍스트 토큰과 계산 방식 자체가 다르고, 시스템 프롬프트가 길면 매 턴마다 그 비용이 반복 청구됩니다. 지금부터 공식 문서 수치를 직접 뜯어봤습니다.
Realtime API, 텍스트 API랑 뭐가 다른가요?
OpenAI Realtime API는 2025년 8월 28일 정식 출시(GA, General Availability)된 음성↔음성 실시간 모델 API입니다. 기존 Chat Completions API가 텍스트를 주고받는 방식이라면, Realtime API는 오디오를 직접 스트리밍으로 주고받습니다. WebRTC, WebSocket, SIP(전화 연결) 세 가지 연결 방식을 지원합니다. (출처: OpenAI 공식 문서, platform.openai.com/docs/guides/realtime)
핵심 모델은 gpt-realtime-1.5와 gpt-realtime-mini 두 가지입니다. 성능이 높은 쪽과 비용을 낮춘 경량 모델로 나뉩니다. 음성 AI 고객 서비스, 실시간 통역, 음성 에이전트 같은 용도에 사용됩니다.
써보니까 진입장벽 자체는 낮습니다. 문제는 요금 구조가 텍스트 API와 완전히 다른 규칙으로 돌아간다는 점입니다. 이 차이를 모르면 예산이 몇 배로 뛸 수 있습니다.
오디오 토큰, 텍스트 토큰이랑 단위가 아예 다릅니다
💡 공식 문서의 토큰 정의와 실제 청구 구조를 같이 놓고 보니 이런 차이가 보였습니다.
오디오 토큰은 언어가 아니라 시간 단위로 변환됩니다. 그래서 “토큰 수를 줄이면 된다”는 텍스트 최적화 공식이 그대로 통하지 않습니다.
공식 문서에 따르면 오디오 입력 토큰은 100ms당 1토큰, 오디오 출력 토큰은 50ms당 1토큰으로 산정됩니다. (출처: OpenAI 공식 비용 관리 문서, platform.openai.com/docs/guides/realtime-costs) 즉, 1분짜리 사용자 발화는 자동으로 600 오디오 입력 토큰이 됩니다. 이 토큰 수에 오디오 단가 $32/1M을 적용하면 순수 입력 오디오 비용이 나옵니다.
단순 계산을 해보면 이렇습니다. gpt-realtime-1.5 기준, 1분 통화(사용자 발화 30초 + AI 응답 30초)는 약 다음과 같습니다:
• 사용자 발화 30초 → 300 오디오 입력 토큰 (100ms = 1토큰 기준)
• AI 응답 30초 → 600 오디오 출력 토큰 (50ms = 1토큰 기준)
• 입력 비용: 300 × $32 / 1,000,000 = $0.0096
• 출력 비용: 600 × $64 / 1,000,000 = $0.0384
• 오디오만의 소계(캐싱 미적용): 약 $0.048 / 분
※ 텍스트 토큰(시스템 프롬프트, 컨텍스트) 비용 별도 추가됨. 캐싱 적용 시 실질 단가 대폭 하락.
이것이 의미하는 바는 명확합니다. 오디오 토큰 단가는 텍스트 입력의 8배($32 vs $4), 출력은 4배($64 vs $16)입니다. 그런데 토큰이 쌓이는 속도 자체도 다릅니다. 1분 대화에서 오디오 출력 토큰이 텍스트 출력 토큰보다 훨씬 많이 발생하기 때문에 실제 비용 격차는 공식 단가 배율 이상으로 벌어집니다.
시스템 프롬프트를 길게 쓰면 여기서 돈이 빠집니다
💡 프롬프트 최적화가 비용 절감의 핵심이라는 건 알려져 있지만, Realtime API에서는 그 영향이 텍스트 API보다 훨씬 더 직접적입니다.
Realtime API는 매 Response(턴)마다 전체 시스템 프롬프트를 다시 입력 토큰으로 카운트합니다. 이것이 실측 데이터에서 비용 805% 폭증의 직접 원인입니다.
실제 테스트 데이터입니다. gpt-realtime-1.5 기준, 시스템 프롬프트 없이 1분 대화를 하면 분당 약 $0.18이 청구됩니다. 여기에 약 1,000단어(≈1,300 토큰)짜리 시스템 프롬프트를 추가하면 분당 비용이 $1.63으로 뜁니다. 정확히 +805% 상승입니다. (출처: frankfu.blog, OpenAI Playground 실측 데이터, 2025.02 기준)
이게 왜 이렇게 크게 올라가느냐면, 시스템 프롬프트가 텍스트 토큰($4/1M)으로 청구되더라도 매 턴마다 반복 카운트되기 때문입니다. 5분짜리 대화에서 10번 발화가 오갔다면, 1,300토큰짜리 프롬프트가 10번 청구됩니다. 대화가 길수록 고정 비용이 선형으로 쌓입니다.
gpt-realtime-mini 기준으로는 동일 조건에서 프롬프트 없이 $0.16/분, 1,300 토큰 프롬프트 추가 시 $0.33/분(+106%)입니다. Mini 모델은 텍스트 토큰 단가($0.60/1M)가 워낙 낮아서 시스템 프롬프트 영향이 상대적으로 작게 유지됩니다. 이 수치 자체가 모델 선택의 핵심 근거가 됩니다.
대화가 길어질수록 비용이 이렇게 쌓입니다
Realtime API는 서버가 대화 이력을 Conversation 객체로 유지합니다. 그리고 매 Response 생성 시 현재까지의 전체 대화를 입력으로 다시 전송합니다. 공식 문서에 이렇게 명시돼 있습니다: “The entire conversation is sent to the model for each Response. Thus turns later in the session will be more expensive.” (출처: platform.openai.com/docs/guides/realtime-costs)
실제 공식 문서 예시를 보면, 2번째 턴에서 입력 토큰은 첫 번째 시스템 프롬프트(100 토큰) + 첫 번째 사용자 메시지(20 오디오 토큰) + 첫 번째 AI 응답(20 오디오 + 10 텍스트) + 두 번째 사용자 메시지(25 오디오 토큰) = 총 175 토큰입니다. 대화가 10턴을 넘어가면 입력 토큰이 기하급수적으로 커집니다. (출처: platform.openai.com/docs/guides/realtime-costs)
다행히 OpenAI는 프롬프트 캐싱을 자동 적용합니다. 이전 턴과 동일한 입력 토큰 구간은 캐시 가격($0.40/1M)으로 청구됩니다. 캐싱이 잘 적용되면 오디오 입력 기준으로 단가가 $32에서 $0.40으로, 즉 80배 이상 내려갑니다. 그래서 실제 분당 비용이 캐싱 적용 후 약 $0.04 수준으로 내려가는 것입니다.
캐싱이 깨지는 상황이 있습니다
캐싱은 입력 토큰이 이전 Response와 동일한 구간에만 적용됩니다. 시스템 프롬프트나 대화 내용을 중간에 수정하면 그 지점 이후로 캐시가 깨집니다. 특히 잦은 session.update 이벤트는 시스템 프롬프트 전체를 재전송하는 효과를 내서 캐시를 무력화합니다. 공식 문서는 세션 중 대화 이력을 최대한 변경하지 말 것을 권고합니다.
컨텍스트 윈도우 한계도 있습니다. gpt-realtime-1.5 기준 컨텍스트는 32k 토큰이지만, 최대 출력 토큰(4,096)을 제외하면 실제 입력에 사용할 수 있는 공간은 28,224 토큰입니다. 대화가 이 한계를 넘으면 오래된 메시지부터 자동 잘립니다(truncation). 이 truncation 역시 캐시를 대거 무력화합니다.
gpt-realtime vs gpt-realtime-mini, 언제 바꿔야 할까요?
💡 가격 표에서 Mini가 단순히 싸 보이지만, 어떤 시나리오에서 비용 격차가 실제로 얼마나 나는지는 표만 봐서는 알기 어렵습니다.
오디오 단가 기준으로 gpt-realtime-1.5 대비 Mini는 입력 3.2배, 출력 3.2배 저렴합니다. 그런데 시스템 프롬프트를 사용한 실제 시나리오에서는 비용 차이가 이 단순 비율보다 더 크게 벌어집니다.
공식 문서의 권고 사항도 있습니다. OpenAI는 “먼저 대형 모델로 앱을 완성한 다음, 프롬프트를 최적화하고 Mini로 마이그레이션을 시도하라”고 권고합니다. (출처: platform.openai.com/docs/guides/realtime-costs) 이 말의 실질적인 의미는, Mini로 시작하면 기능 한계에 부딪혀 다시 구조를 바꾸는 비용이 더 클 수 있다는 뜻입니다.
정리하면 FAQ·단순 주문처럼 짧고 반복적인 대화는 Mini로 충분하고, 의료 상담·복잡한 멀티턴 대화처럼 긴 컨텍스트가 필요한 경우는 gpt-realtime-1.5가 맞습니다. 단, 후자는 시스템 프롬프트를 최소화하지 않으면 분당 $1.63이 기본값이 됩니다.
2026.03.31부터 컨테이너 과금 방식이 바뀝니다
⚠️ 2026년 3월 31일 변경 예정
컨테이너(Hosted Shell, Code Interpreter) 과금 기준이 “생성 건당”에서 “20분 세션당”으로 바뀝니다. 이 변경은 Realtime API와 함께 멀티모달 에이전트를 구축할 때 비용 계산에 영향을 줍니다.
현재는 컨테이너를 1번 실행하면 메모리 크기 기준으로 과금됩니다(1GB = $0.03 / 컨테이너). 2026.03.31부터는 동일한 단가이지만 과금 기준이 “컨테이너 생성 1건당”이 아니라 “20분 세션당”으로 변경됩니다. (출처: developers.openai.com/api/docs/pricing, 2026.03.20 기준)
이것이 의미하는 바는 이렇습니다. 단순히 컨테이너를 1분만 쓰더라도 20분치 비용($0.03)이 청구됩니다. 반면 20분 이내에서는 추가 청구가 없으니, 짧은 실행을 자주 하던 방식보다 긴 세션 방식이 유리해집니다. Realtime API와 Code Interpreter를 함께 쓰는 음성 에이전트 구조라면 이 변경이 특히 직접적으로 영향을 미칩니다.
이 변경은 Realtime API 요금 자체와 분리된 항목이지만, 음성 에이전트 아키텍처에서 Realtime API + Container를 함께 쓰는 경우 예산 계획에 반드시 반영해야 합니다. 공식 발표 기준일은 2026.03.31이며 현재까지 추가 공지는 없습니다.
Q&A 5가지
마치며
OpenAI Realtime API 요금 구조는 생각보다 훨씬 복잡합니다. 공식 페이지의 $0.04/분이라는 수치는 캐싱이 완벽하게 적용된 이상적인 조건이고, 현실에서 시스템 프롬프트를 쓰고 대화가 길어지면 분당 비용은 그 10배를 넘을 수도 있습니다.
핵심만 정리하면 이렇습니다. 오디오 토큰은 시간 기반으로 카운트되고 텍스트보다 8배 비싸며, 시스템 프롬프트는 매 턴마다 재청구되고, 대화 이력은 누적될수록 입력 토큰을 선형으로 불립니다. 캐싱이 비용을 크게 낮춰주지만, 세션 중 구조를 변경하면 캐시가 깨집니다.
개인적으로 가장 실용적인 접근은 먼저 gpt-realtime-1.5로 프로토타입을 완성하고, Playground Logs로 실측 토큰 사용량을 확인한 후, 시스템 프롬프트를 압축하고 Mini 모델로 전환 가능한지 테스트하는 순서입니다. 2026.03.31 컨테이너 과금 변경도 같이 챙겨두면 좋습니다.
공식 문서 수치가 실제 청구 내역과 다르게 느껴진다면, 대부분 시스템 프롬프트와 컨텍스트 누적 문제가 원인입니다. Playground의 Logs 탭에서 세션 ID로 실측 데이터를 직접 확인하는 것이 지금 당장 할 수 있는 가장 정확한 방법입니다.
📚 본 포스팅 참고 자료
- OpenAI 공식 API 요금 페이지 (openai.com/api/pricing)
- OpenAI 공식 개발자 문서 요금 (developers.openai.com/api/docs/pricing)
- OpenAI Realtime API 비용 관리 공식 가이드 (platform.openai.com/docs/guides/realtime-costs)
- OpenAI Realtime API 공식 문서 (platform.openai.com/docs/guides/realtime)
- OpenAI Realtime API 분당 비용 실측 분석 (frankfu.blog, 2025.02)
- OpenAI API Deprecations 공식 페이지 (developers.openai.com/api/docs/deprecations)
※ 본 포스팅은 2026년 3월 20일 기준 공식 자료를 근거로 작성되었습니다. OpenAI의 서비스 정책·요금 체계·UI·기능은 업데이트에 의해 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 실제 과금 내역은 OpenAI 대시보드에서 직접 확인하시기 바랍니다. 본 글에서 제공하는 정보는 참고용이며, 상업적 의사결정에는 공식 문서를 기준으로 삼으시기 바랍니다.


댓글 남기기