2026.03.20 기준
gpt-realtime-1.5 기준
2026.03.31 요금 구조 변경 예정

OpenAI Realtime API 요금, 직접 계산했더니 예상의 8배였습니다

공식 문서에 나온 토큰 단가만 보고 예산을 잡으면 실제 청구서에서 당황하게 됩니다. 오디오 토큰은 텍스트 토큰과 계산 방식 자체가 다르고, 시스템 프롬프트가 길면 매 턴마다 그 비용이 반복 청구됩니다. 지금부터 공식 문서 수치를 직접 뜯어봤습니다.

$32.00

오디오 입력 /1M tokens

$64.00

오디오 출력 /1M tokens

+805%

시스템 프롬프트 추가 시 비용 증가

Realtime API, 텍스트 API랑 뭐가 다른가요?

OpenAI Realtime API는 2025년 8월 28일 정식 출시(GA, General Availability)된 음성↔음성 실시간 모델 API입니다. 기존 Chat Completions API가 텍스트를 주고받는 방식이라면, Realtime API는 오디오를 직접 스트리밍으로 주고받습니다. WebRTC, WebSocket, SIP(전화 연결) 세 가지 연결 방식을 지원합니다. (출처: OpenAI 공식 문서, platform.openai.com/docs/guides/realtime)

핵심 모델은 gpt-realtime-1.5와 gpt-realtime-mini 두 가지입니다. 성능이 높은 쪽과 비용을 낮춘 경량 모델로 나뉩니다. 음성 AI 고객 서비스, 실시간 통역, 음성 에이전트 같은 용도에 사용됩니다.

써보니까 진입장벽 자체는 낮습니다. 문제는 요금 구조가 텍스트 API와 완전히 다른 규칙으로 돌아간다는 점입니다. 이 차이를 모르면 예산이 몇 배로 뛸 수 있습니다.

▲ 목차로 돌아가기

오디오 토큰, 텍스트 토큰이랑 단위가 아예 다릅니다

💡 공식 문서의 토큰 정의와 실제 청구 구조를 같이 놓고 보니 이런 차이가 보였습니다.

오디오 토큰은 언어가 아니라 시간 단위로 변환됩니다. 그래서 “토큰 수를 줄이면 된다”는 텍스트 최적화 공식이 그대로 통하지 않습니다.

공식 문서에 따르면 오디오 입력 토큰은 100ms당 1토큰, 오디오 출력 토큰은 50ms당 1토큰으로 산정됩니다. (출처: OpenAI 공식 비용 관리 문서, platform.openai.com/docs/guides/realtime-costs) 즉, 1분짜리 사용자 발화는 자동으로 600 오디오 입력 토큰이 됩니다. 이 토큰 수에 오디오 단가 $32/1M을 적용하면 순수 입력 오디오 비용이 나옵니다.

구분	gpt-realtime-1.5	gpt-realtime-mini
오디오 입력	$32.00 / 1M tokens	$10.00 / 1M tokens
오디오 출력	$64.00 / 1M tokens	$20.00 / 1M tokens
텍스트 입력	$4.00 / 1M tokens	$0.60 / 1M tokens
텍스트 출력	$16.00 / 1M tokens	$2.40 / 1M tokens
캐시 오디오 입력	$0.40 / 1M tokens	$0.30 / 1M tokens

(출처: OpenAI 공식 API 요금 페이지, developers.openai.com/api/docs/pricing, 2026.03.20 기준)

단순 계산을 해보면 이렇습니다. gpt-realtime-1.5 기준, 1분 통화(사용자 발화 30초 + AI 응답 30초)는 약 다음과 같습니다:

직접 계산 가능한 공식 수치 기반 추정:
• 사용자 발화 30초 → 300 오디오 입력 토큰 (100ms = 1토큰 기준)
• AI 응답 30초 → 600 오디오 출력 토큰 (50ms = 1토큰 기준)
• 입력 비용: 300 × $32 / 1,000,000 = $0.0096
• 출력 비용: 600 × $64 / 1,000,000 = $0.0384
• 오디오만의 소계(캐싱 미적용): 약 $0.048 / 분
※ 텍스트 토큰(시스템 프롬프트, 컨텍스트) 비용 별도 추가됨. 캐싱 적용 시 실질 단가 대폭 하락.

이것이 의미하는 바는 명확합니다. 오디오 토큰 단가는 텍스트 입력의 8배($32 vs $4), 출력은 4배($64 vs $16)입니다. 그런데 토큰이 쌓이는 속도 자체도 다릅니다. 1분 대화에서 오디오 출력 토큰이 텍스트 출력 토큰보다 훨씬 많이 발생하기 때문에 실제 비용 격차는 공식 단가 배율 이상으로 벌어집니다.

▲ 목차로 돌아가기

시스템 프롬프트를 길게 쓰면 여기서 돈이 빠집니다

💡 프롬프트 최적화가 비용 절감의 핵심이라는 건 알려져 있지만, Realtime API에서는 그 영향이 텍스트 API보다 훨씬 더 직접적입니다.

Realtime API는 매 Response(턴)마다 전체 시스템 프롬프트를 다시 입력 토큰으로 카운트합니다. 이것이 실측 데이터에서 비용 805% 폭증의 직접 원인입니다.

실제 테스트 데이터입니다. gpt-realtime-1.5 기준, 시스템 프롬프트 없이 1분 대화를 하면 분당 약 $0.18이 청구됩니다. 여기에 약 1,000단어(≈1,300 토큰)짜리 시스템 프롬프트를 추가하면 분당 비용이 $1.63으로 뜁니다. 정확히 +805% 상승입니다. (출처: frankfu.blog, OpenAI Playground 실측 데이터, 2025.02 기준)

이게 왜 이렇게 크게 올라가느냐면, 시스템 프롬프트가 텍스트 토큰($4/1M)으로 청구되더라도 매 턴마다 반복 카운트되기 때문입니다. 5분짜리 대화에서 10번 발화가 오갔다면, 1,300토큰짜리 프롬프트가 10번 청구됩니다. 대화가 길수록 고정 비용이 선형으로 쌓입니다.

gpt-realtime-mini 기준으로는 동일 조건에서 프롬프트 없이 $0.16/분, 1,300 토큰 프롬프트 추가 시 $0.33/분(+106%)입니다. Mini 모델은 텍스트 토큰 단가($0.60/1M)가 워낙 낮아서 시스템 프롬프트 영향이 상대적으로 작게 유지됩니다. 이 수치 자체가 모델 선택의 핵심 근거가 됩니다.

▲ 목차로 돌아가기

대화가 길어질수록 비용이 이렇게 쌓입니다

Realtime API는 서버가 대화 이력을 Conversation 객체로 유지합니다. 그리고 매 Response 생성 시 현재까지의 전체 대화를 입력으로 다시 전송합니다. 공식 문서에 이렇게 명시돼 있습니다: “The entire conversation is sent to the model for each Response. Thus turns later in the session will be more expensive.” (출처: platform.openai.com/docs/guides/realtime-costs)

실제 공식 문서 예시를 보면, 2번째 턴에서 입력 토큰은 첫 번째 시스템 프롬프트(100 토큰) + 첫 번째 사용자 메시지(20 오디오 토큰) + 첫 번째 AI 응답(20 오디오 + 10 텍스트) + 두 번째 사용자 메시지(25 오디오 토큰) = 총 175 토큰입니다. 대화가 10턴을 넘어가면 입력 토큰이 기하급수적으로 커집니다. (출처: platform.openai.com/docs/guides/realtime-costs)

다행히 OpenAI는 프롬프트 캐싱을 자동 적용합니다. 이전 턴과 동일한 입력 토큰 구간은 캐시 가격($0.40/1M)으로 청구됩니다. 캐싱이 잘 적용되면 오디오 입력 기준으로 단가가 $32에서 $0.40으로, 즉 80배 이상 내려갑니다. 그래서 실제 분당 비용이 캐싱 적용 후 약 $0.04 수준으로 내려가는 것입니다.

캐싱이 깨지는 상황이 있습니다

캐싱은 입력 토큰이 이전 Response와 동일한 구간에만 적용됩니다. 시스템 프롬프트나 대화 내용을 중간에 수정하면 그 지점 이후로 캐시가 깨집니다. 특히 잦은 session.update 이벤트는 시스템 프롬프트 전체를 재전송하는 효과를 내서 캐시를 무력화합니다. 공식 문서는 세션 중 대화 이력을 최대한 변경하지 말 것을 권고합니다.

컨텍스트 윈도우 한계도 있습니다. gpt-realtime-1.5 기준 컨텍스트는 32k 토큰이지만, 최대 출력 토큰(4,096)을 제외하면 실제 입력에 사용할 수 있는 공간은 28,224 토큰입니다. 대화가 이 한계를 넘으면 오래된 메시지부터 자동 잘립니다(truncation). 이 truncation 역시 캐시를 대거 무력화합니다.

▲ 목차로 돌아가기

gpt-realtime vs gpt-realtime-mini, 언제 바꿔야 할까요?

💡 가격 표에서 Mini가 단순히 싸 보이지만, 어떤 시나리오에서 비용 격차가 실제로 얼마나 나는지는 표만 봐서는 알기 어렵습니다.

오디오 단가 기준으로 gpt-realtime-1.5 대비 Mini는 입력 3.2배, 출력 3.2배 저렴합니다. 그런데 시스템 프롬프트를 사용한 실제 시나리오에서는 비용 차이가 이 단순 비율보다 더 크게 벌어집니다.

시나리오	gpt-realtime-1.5	gpt-realtime-mini
시스템 프롬프트 없음	$0.18 / 분	$0.16 / 분
1,000단어 시스템 프롬프트	$1.63 / 분	$0.33 / 분
비용 격차(프롬프트 있을 때)	약 5배 차이

(출처: frankfu.blog OpenAI Playground 실측 데이터, 2025.02 기준 / 현재 모델 버전과 다를 수 있음)

공식 문서의 권고 사항도 있습니다. OpenAI는 “먼저 대형 모델로 앱을 완성한 다음, 프롬프트를 최적화하고 Mini로 마이그레이션을 시도하라”고 권고합니다. (출처: platform.openai.com/docs/guides/realtime-costs) 이 말의 실질적인 의미는, Mini로 시작하면 기능 한계에 부딪혀 다시 구조를 바꾸는 비용이 더 클 수 있다는 뜻입니다.

정리하면 FAQ·단순 주문처럼 짧고 반복적인 대화는 Mini로 충분하고, 의료 상담·복잡한 멀티턴 대화처럼 긴 컨텍스트가 필요한 경우는 gpt-realtime-1.5가 맞습니다. 단, 후자는 시스템 프롬프트를 최소화하지 않으면 분당 $1.63이 기본값이 됩니다.

▲ 목차로 돌아가기

2026.03.31부터 컨테이너 과금 방식이 바뀝니다

⚠️ 2026년 3월 31일 변경 예정

컨테이너(Hosted Shell, Code Interpreter) 과금 기준이 “생성 건당”에서 “20분 세션당”으로 바뀝니다. 이 변경은 Realtime API와 함께 멀티모달 에이전트를 구축할 때 비용 계산에 영향을 줍니다.

현재는 컨테이너를 1번 실행하면 메모리 크기 기준으로 과금됩니다(1GB = $0.03 / 컨테이너). 2026.03.31부터는 동일한 단가이지만 과금 기준이 “컨테이너 생성 1건당”이 아니라 “20분 세션당”으로 변경됩니다. (출처: developers.openai.com/api/docs/pricing, 2026.03.20 기준)

이것이 의미하는 바는 이렇습니다. 단순히 컨테이너를 1분만 쓰더라도 20분치 비용($0.03)이 청구됩니다. 반면 20분 이내에서는 추가 청구가 없으니, 짧은 실행을 자주 하던 방식보다 긴 세션 방식이 유리해집니다. Realtime API와 Code Interpreter를 함께 쓰는 음성 에이전트 구조라면 이 변경이 특히 직접적으로 영향을 미칩니다.

이 변경은 Realtime API 요금 자체와 분리된 항목이지만, 음성 에이전트 아키텍처에서 Realtime API + Container를 함께 쓰는 경우 예산 계획에 반드시 반영해야 합니다. 공식 발표 기준일은 2026.03.31이며 현재까지 추가 공지는 없습니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. 공식 홈페이지에 $0.04/분이라고 나오는데, 실제로도 그만큼 나오나요?

$0.04/분은 캐싱이 제대로 적용되고, 시스템 프롬프트가 없거나 극히 짧을 때의 수치입니다. (출처: Twitter/X @kwindla, 2025.08.29) 시스템 프롬프트가 1,000단어 수준이면 gpt-realtime-1.5 기준으로 $1.63/분까지 올라가는 실측 데이터가 있습니다. 예산 계획은 반드시 직접 Playground에서 샘플 세션을 돌려보고 Logs 탭에서 실측하는 것을 권장합니다.

Q2. 오디오 토큰이 정확히 몇 개인지 확인할 수 있나요?

네, response.done 이벤트에서 usage.input_token_details.audio_tokens, output_token_details.audio_tokens로 각각 확인할 수 있습니다. 입력 전사(transcription)를 켜면 별도로 Whisper 또는 gpt-4o-transcribe 비용이 추가 발생하니 이 부분도 주의해야 합니다.

Q3. 연결은 됐는데 아무 말도 안 했다면 비용이 발생하나요?

Response가 생성될 때만 비용이 발생합니다. VAD(음성 감지)가 켜져 있으면 빈 오디오는 입력 토큰으로 카운트되지 않습니다. 다만 VAD가 꺼져 있고 클라이언트가 수동으로 빈 오디오를 Conversation에 추가하면 토큰이 발생할 수 있습니다. 네트워크 연결 자체에는 별도 비용이 없습니다. (출처: platform.openai.com/docs/guides/realtime-costs)

Q4. Realtime API Beta가 2026.05.07에 deprecated된다는 게 무슨 의미인가요?

2025.08.28 출시된 GA(정식 버전) API와 별도로, 이전 Beta 인터페이스가 2026년 5월 7일 종료됩니다. Beta를 사용하던 경우 GA 프로토콜로 마이그레이션이 필요합니다. (출처: developers.openai.com/api/docs/deprecations) 이벤트 이름과 URL 구조가 바뀌었으므로 단순 헤더 교체로는 안 되고, 이벤트 타입명과 엔드포인트를 수정해야 합니다.

Q5. 입력 전사(transcription)를 켜면 비용이 얼마나 더 붙나요?

전사 기능은 speech-to-speech 모델이 아니라 별도의 전사 모델(gpt-4o-transcribe: $0.006/분, gpt-4o-mini-transcribe: $0.003/분)이 따로 청구됩니다. (출처: developers.openai.com/api/docs/pricing) 음성 에이전트 로그 저장이나 모니터링 목적으로만 켜는 경우가 많은데, 분당 $0.003~$0.006이 추가되므로 저비용 시나리오에서는 무시하기 어려운 수치입니다.

▲ 목차로 돌아가기

마치며

OpenAI Realtime API 요금 구조는 생각보다 훨씬 복잡합니다. 공식 페이지의 $0.04/분이라는 수치는 캐싱이 완벽하게 적용된 이상적인 조건이고, 현실에서 시스템 프롬프트를 쓰고 대화가 길어지면 분당 비용은 그 10배를 넘을 수도 있습니다.

핵심만 정리하면 이렇습니다. 오디오 토큰은 시간 기반으로 카운트되고 텍스트보다 8배 비싸며, 시스템 프롬프트는 매 턴마다 재청구되고, 대화 이력은 누적될수록 입력 토큰을 선형으로 불립니다. 캐싱이 비용을 크게 낮춰주지만, 세션 중 구조를 변경하면 캐시가 깨집니다.

개인적으로 가장 실용적인 접근은 먼저 gpt-realtime-1.5로 프로토타입을 완성하고, Playground Logs로 실측 토큰 사용량을 확인한 후, 시스템 프롬프트를 압축하고 Mini 모델로 전환 가능한지 테스트하는 순서입니다. 2026.03.31 컨테이너 과금 변경도 같이 챙겨두면 좋습니다.

공식 문서 수치가 실제 청구 내역과 다르게 느껴진다면, 대부분 시스템 프롬프트와 컨텍스트 누적 문제가 원인입니다. Playground의 Logs 탭에서 세션 ID로 실측 데이터를 직접 확인하는 것이 지금 당장 할 수 있는 가장 정확한 방법입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

※ 본 포스팅은 2026년 3월 20일 기준 공식 자료를 근거로 작성되었습니다. OpenAI의 서비스 정책·요금 체계·UI·기능은 업데이트에 의해 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 실제 과금 내역은 OpenAI 대시보드에서 직접 확인하시기 바랍니다. 본 글에서 제공하는 정보는 참고용이며, 상업적 의사결정에는 공식 문서를 기준으로 삼으시기 바랍니다.

OpenAI Realtime API 요금, 직접 계산했더니 예상의 8배였습니다

OpenAI Realtime API 요금, 직접 계산했더니 예상의 8배였습니다

Realtime API, 텍스트 API랑 뭐가 다른가요?

오디오 토큰, 텍스트 토큰이랑 단위가 아예 다릅니다

시스템 프롬프트를 길게 쓰면 여기서 돈이 빠집니다

대화가 길어질수록 비용이 이렇게 쌓입니다

캐싱이 깨지는 상황이 있습니다

gpt-realtime vs gpt-realtime-mini, 언제 바꿔야 할까요?

2026.03.31부터 컨테이너 과금 방식이 바뀝니다

Q&A 5가지

마치며

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

OpenAI Realtime API 요금, 직접 계산했더니 예상의 8배였습니다

Realtime API, 텍스트 API랑 뭐가 다른가요?

오디오 토큰, 텍스트 토큰이랑 단위가 아예 다릅니다

시스템 프롬프트를 길게 쓰면 여기서 돈이 빠집니다

대화가 길어질수록 비용이 이렇게 쌓입니다

캐싱이 깨지는 상황이 있습니다

gpt-realtime vs gpt-realtime-mini, 언제 바꿔야 할까요?

2026.03.31부터 컨테이너 과금 방식이 바뀝니다

Q&A 5가지

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기