OpenAI o3 공식 문서 기준
o3 API 요금, 실제로 계산해봤더니 5배 나왔습니다
표시 가격은 GPT-4.1과 똑같습니다. 그런데 청구서는 달랐습니다. 이유는 reasoning tokens — 대부분의 블로그가 언급하지 않는 부분입니다.
80% 인하, 맞습니다 — 그런데 어느 가격의 80%인가요
결론부터 말씀드리면, o3 API 요금이 2025년 6월 10일에 80% 인하된 건 사실입니다. 입력 토큰 100만 개당 $10이었던 가격이 $2로, 출력은 $40에서 $8로 떨어졌습니다. (출처: OpenAI 공식 가격 페이지, 2025.06.10) 숫자만 보면 얘기가 끝난 것 같지만, 사실 여기서부터 문제가 시작됩니다.
인하 이후 표시 가격은 GPT-4.1과 완전히 동일합니다. 입력 $2, 출력 $8 — 토크나이저 기준까지 같습니다. 같은 모델 페이지에서 같은 숫자가 보이면 당연히 같은 요금이겠지 싶을 텐데, 막상 한 달 청구서를 열어보면 o3 쪽이 훨씬 많이 찍혀 있습니다. 이유는 reasoning tokens입니다.
표시 가격이 같아도 청구서가 다른 이유
💡 공식 요금표와 실제 청구 내역을 같이 놓고 보니 이런 차이가 보였습니다.
o3는 추론 모델입니다. 최종 답변을 출력하기 전에 내부에서 ‘생각하는 과정’을 먼저 거칩니다. 이 과정에서 생성되는 토큰이 reasoning tokens인데, 이게 전부 출력 토큰 요금으로 청구됩니다. (출처: OpenAI 공식 API 문서 — developers.openai.com/api/docs/pricing)
GPT-4.1로 800토큰짜리 답변을 받는 작업이라면 그냥 800토큰 출력 요금만 냅니다. 같은 작업을 o3에 맡기면 800토큰 답변 + 약 2,200토큰 reasoning = 총 3,000토큰 출력 요금이 나옵니다. (출처: perunit.ai/blog/openai-o3-api-pricing, 2026.03.13) 표시 단가는 동일해도 토큰 수 자체가 3.75배 많습니다.
결과적으로 같은 종류의 요청에서 GPT-4.1 대비 실제 비용이 2~5배 높게 나오는 구간이 생깁니다. 문제의 복잡도가 올라갈수록 reasoning 토큰은 더 많이 생성되기 때문에, 어려운 문제일수록 격차가 더 커집니다.
직접 계산해봤습니다 — 같은 작업, 다른 금액
아래 표는 동일한 프롬프트(입력 4,000토큰 기준)를 GPT-4.1과 o3에 각각 넣었을 때 나오는 이론 비용 계산입니다. reasoning 토큰을 넉넉하게 잡아 2,200토큰으로 설정했습니다.
| 항목 | GPT-4.1 | o3 |
|---|---|---|
| 입력 토큰 | 4,000 | 4,000 |
| 출력(답변) 토큰 | 800 | 800 |
| reasoning 토큰 | 0 | 약 2,200 |
| 실제 청구 출력 토큰 | 800 | 3,000 |
| 총 비용 (1회 요청) | 약 $0.0144 | 약 $0.0320 |
계산 기준: 입력 $2/1M + 출력 $8/1M (출처: OpenAI 공식 가격 페이지, openai.com/ko-KR/api/pricing/)
위 예시에서 단가는 동일한데 실제 비용은 2.2배 차이 납니다. 복잡한 수학 증명이나 멀티스텝 코드 디버깅이라면 reasoning 토큰이 5,000개를 넘기도 해서 격차는 더 벌어집니다. 이게 그냥 이론 이야기가 아닌 게, OpenAI 커뮤니티에는 “계산상 $7 나와야 하는데 청구서가 $20이었다”는 실제 사례 스레드가 있고, 원인이 정확히 reasoning 토큰이었습니다. (출처: OpenAI Community, 2025.08.21)
o3 대신 o4-mini를 먼저 써야 하는 경우
💡 OpenAI 공식 문서에 나온 포지셔닝과 실제 비용 구조를 같이 보니 이런 흐름이 보였습니다.
OpenAI는 공식적으로 o4-mini를 “대부분의 추론 작업에 더 적합한 기본 모델”로 포지셔닝하고 있습니다. (출처: developers.openai.com/api/docs/pricing) 입력 $1.10, 출력 $4.40 — o3 대비 입출력 모두 45% 저렴합니다. 성능 천장이 필요한 상황에서만 o3로 올리라는 게 OpenAI의 공식 안내 방향입니다.
고객 지원 티켓 분류, 짧은 이메일 요약, 정형 데이터 포맷팅 같은 단일 스텝 작업에 o3를 쓰면 GPT-4.1 mini 대비 3~5배를 더 내면서 결과물 품질 차이는 거의 없습니다. (출처: perunit.ai/blog/openai-o3-api-pricing, 2026.03.13) 추론 단계가 필요 없는 작업에 추론 모델을 쓰는 셈입니다.
실용적인 판단 기준은 이렇습니다. “이 작업에서 중간 단계의 판단이 다음 단계에 영향을 주는가?” — 답이 ‘아니오’라면 o4-mini 또는 GPT-4.1 mini가 더 합리적입니다. 멀티스텝 코드 아키텍처 분석, 수학 증명 검증, 법률 문서 다단계 추론 같은 작업에서 o3의 품질 차이가 실제로 납니다.
대시보드 수치를 그대로 믿으면 안 되는 이유
청구서가 예상보다 많이 나왔을 때 OpenAI 대시보드에서 토큰 사용량을 확인해도 정확히 안 나오는 경우가 있습니다. OpenAI Community 스레드에서 실제로 문제를 겪은 사례가 있는데, 대시보드 우측의 토큰 카운트 숫자가 입력 토큰만 표시하고 출력 토큰은 누락된다는 점이 확인됐습니다. (출처: OpenAI Community Forum, 2025.08.21)
reasoning 토큰을 포함한 출력 토큰 전체를 보려면 platform.openai.com/usage/chat-completions에서 날짜 범위를 직접 설정하고, 상단 드롭다운에서 ‘output tokens’를 체크한 뒤 ‘group by model’로 조회해야 합니다. 기본 화면에서 보이는 숫자는 전체 비용과 맞지 않을 수 있습니다.
o3 API를 실제 서비스에 붙일 때는 각 API 호출 응답에서 usage 필드를 직접 파싱해서 reasoning 토큰을 별도로 기록하는 게 훨씬 안전합니다. 대시보드만 믿다가 예산 초과가 나오면 이유를 파악하는 데만 시간이 꽤 걸립니다.
o3가 진짜 값어치 하는 작업 vs 낭비가 되는 작업
| 작업 유형 | o3 권장 | 더 나은 대안 |
|---|---|---|
| 멀티스텝 코드 디버깅·아키텍처 분석 | ✅ | — |
| 수학 증명·경쟁 프로그래밍 | ✅ | — |
| 법률·과학 문서 다단계 추론 | ✅ | — |
| 고객 문의 분류·짧은 이메일 요약 | ❌ 과비용 | GPT-4.1 mini |
| 정형 데이터 포맷팅·JSON 변환 | ❌ 과비용 | GPT-4.1 mini |
| 대부분의 추론 작업 (중난이도) | △ 검토 필요 | o4-mini 먼저 |
출처: perunit.ai/blog/openai-o3-api-pricing (2026.03.13) / OpenAI 공식 문서
CIO 컬럼 분석에 따르면 o3는 실제로 도구 호출(tool call)을 지나치게 선호하는 경향이 있어, 에이전트 워크플로에서 불필요한 호출이 쌓이면 비용이 예상보다 빠르게 올라갑니다. (출처: cio.com, 2025.06.19) 요청당 도구 호출 횟수를 명시적으로 제한(“최대 8회”)하고 수정 범위를 사전에 좁혀두는 게 실비를 아끼는 현실적인 방법입니다.
자주 묻는 질문
Q1. o3 API 요금이 GPT-4.1이랑 같다고 들었는데 왜 더 많이 나오나요?
표시 단가는 동일합니다($2/$8). 차이는 토큰 수에 있습니다. o3는 답변 전에 reasoning tokens를 내부적으로 생성하고, 이게 전부 출력 토큰으로 청구됩니다. 동일한 요청에서 o3의 청구 출력 토큰은 GPT-4.1 대비 2~5배 많게 나올 수 있습니다.
Q2. reasoning tokens 수를 미리 예측하거나 제한할 수 있나요?
정확한 사전 예측은 어렵습니다. 문제 복잡도에 따라 동적으로 결정됩니다. 다만 API 파라미터에서 max_tokens를 제한하면 reasoning 포함 전체 출력의 상한을 걸 수 있습니다. 단, 이 경우 reasoning 중간에 잘릴 수 있어 불완전한 답변이 나올 수 있습니다.
Q3. o4-mini와 o3, 코딩 작업에선 어느 쪽이 낫나요?
OpenAI 공식 포지셔닝은 o4-mini를 대부분의 추론 작업 기본값으로 안내합니다. 단일 함수 수준의 코드 수정이나 중난이도 로직은 o4-mini로 충분한 경우가 많습니다. 대규모 리포지터리 분석이나 복잡한 아키텍처 결정처럼 여러 제약 조건을 동시에 추적해야 할 때 o3의 차이가 납니다.
Q4. Batch API 할인은 o3에도 적용되나요?
적용됩니다. Batch API를 쓰면 처리 시간이 최대 24시간이지만 요금이 50% 할인됩니다. (출처: OpenAI 공식 문서) 실시간 응답이 필요 없는 배치성 분석 작업이라면 Batch API + o3 조합이 비용 절감에 효과적입니다.
Q5. 캐시 할인은 reasoning tokens에도 붙나요?
캐시 할인은 입력 토큰에만 적용됩니다. 동일한 입력이 재사용될 경우 입력 비용이 절감되지만, reasoning 토큰은 매 요청마다 새로 생성되므로 캐시 할인 대상이 아닙니다. 시스템 프롬프트를 재사용하는 구조라면 입력 쪽에서 캐시 효과를 볼 수 있습니다.
마치며
o3 요금 인하는 진짜입니다. 표시 단가 기준으로는 80% 싸진 게 맞습니다. 그런데 reasoning tokens라는 변수가 빠지면 계산이 틀립니다. 단가는 같아도 토큰 수가 달라지기 때문에, 작업 유형에 따라 실비가 예상의 2~5배까지 나올 수 있습니다.
솔직히 말하면, 대부분의 추론 작업은 o4-mini에서 먼저 검증해보는 게 맞습니다. o3는 다단계 복잡 추론이 필요한 작업에서 진가를 발휘하고, 그게 아닌 곳에 쓰면 그냥 비용 낭비입니다. 이 부분이 한국어 블로그에서 잘 다뤄지지 않아서 직접 계산해봤습니다.
본 포스팅 참고 자료
- ① OpenAI 공식 API 요금 페이지 — openai.com/ko-KR/api/pricing/
- ② OpenAI 개발자 공식 요금 문서 — developers.openai.com/api/docs/pricing
- ③ PerUnit — o3 API Pricing: What Reasoning Models Actually Cost (2026.03.13) — perunit.ai/blog/openai-o3-api-pricing
- ④ CIO — 오픈AI의 o3 가격 인하, 바이브 코더의 판을 뒤흔들다 (2025.06.19) — cio.com
- ⑤ OpenAI Community — Reasoning tokens hidden price question (2025.08.21) — community.openai.com
본 포스팅 작성 이후 OpenAI의 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 본문 내 수치는 2025년 6월 10일 o3 가격 인하 기준이며, 최신 정보는 반드시 OpenAI 공식 문서에서 확인하시기 바랍니다. 본 포스팅은 특정 서비스 가입을 권유하지 않습니다.

댓글 남기기