o3 API 가격, $2라더니 실제 청구서는 달랐습니다

Published on

in

o3 API 가격, 라더니 실제 청구서는 달랐습니다

2026.03.19 기준
o3 모델 기준 (2025.06.10 가격 인하 적용)
IT/AI

o3 API 가격, $2라더니
실제 청구서는 달랐습니다

OpenAI가 2025년 6월 10일, o3 API 가격을 기존 대비 80% 인하한다고 발표했습니다. 입력 토큰은 $10 → $2/1M, 출력 토큰은 $40 → $8/1M으로 떨어졌죠. 그런데 실제로 API를 쓰기 시작하면 대시보드에 찍히는 숫자가 예상과 전혀 다른 경우가 생깁니다. 그 이유는 가격표에 없는 reasoning 토큰 과금 구조 때문입니다.

$2
입력 /1M 토큰
$8
출력 /1M 토큰
80%↓
2025.06.10 인하
3x
실제 청구 가능 배수

가격표에 없는 비용이 있습니다

o3 API 가격표를 처음 보면 입력 $2/1M, 출력 $8/1M 두 줄로 끝납니다. 그런데 o3는 추론(reasoning) 모델이라 응답을 생성하기 전에 내부적으로 먼저 “생각”하는 과정을 거칩니다. 이 thinking 과정에서 쓰이는 토큰이 바로 reasoning 토큰입니다. 문제는 이 토큰이 가격표에 별도 항목으로 노출되지 않는다는 점입니다.

💡 공식 발표문과 실제 청구 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
OpenAI 공식 문서는 “reasoning 토큰은 API를 통해 표시되지 않지만, 모델의 컨텍스트 윈도우를 차지하며 출력 토큰으로 청구됩니다“라고 명시합니다. (출처: OpenAI API Docs – Reasoning Models, 2025)

실제로 OpenAI 커뮤니티에는 “GPT-5 mini/nano 사용했는데 예상 $7이 청구서에 $20으로 찍혔다”는 사례가 올라왔습니다 (출처: OpenAI Community Forum, 2025.08.21). 이게 단순 계산 실수가 아니었습니다. reasoning 토큰이 출력 토큰과 같은 단가($8/1M)로 과금되면서 예측하지 못한 청구가 발생한 것입니다. 이 구조는 o3뿐 아니라 o-시리즈 전체에 동일하게 적용됩니다.

쉽게 말하면, “$2짜리 입력”을 보내도 모델이 복잡한 문제를 풀면서 내부적으로 수천 개의 reasoning 토큰을 소비할 수 있고, 이것이 모두 $8/1M짜리 출력 토큰으로 더해져 청구됩니다.

▲ 목차로 돌아가기

80% 인하 전과 후, 숫자로 직접 비교

2025년 6월 10일 이전과 이후의 공식 가격 변동은 아래 표로 확인할 수 있습니다. (출처: OpenAI 공식 가격 페이지 및 OpenAI Community Forum 발표, 2025.06.10)

구분 인하 전 ($/1M) 인하 후 ($/1M) 변화율
o3 입력 $10 $2 ▼ 80%
o3 출력 $40 $8 ▼ 80%
o3-pro 입력 $20 신규 출시
o3-pro 출력 $80 신규 출시

표면적인 인하 폭은 인상적입니다. 하지만 이 수치는 reasoning 토큰을 포함하지 않은 가격표 기준입니다. 개발자 입장에서 실질적으로 체감하는 가격은 실행한 작업의 복잡도에 따라 크게 달라집니다.

예를 들어 수학 경시 문제 같은 고난도 추론 작업을 돌리면, reasoning 토큰이 폭발적으로 늘어납니다. 실제로 ARC-AGI 평가 단 한 번의 고효율 실행에 오픈AI o3가 1억 1,100만 토큰을 소비하여 $66,772가 청구된 사례가 학술 논문에 기록됐습니다. (출처: Arxiv “Predictive Auditing of Hidden Tokens in LLM APIs via Reasoning”, 2025.07.29) — 이 수치가 의미하는 것은, 단 한 번의 벤치마크 평가 실행이 개인 월급 두 달치에 해당하는 비용을 낼 수 있다는 것입니다.

▲ 목차로 돌아가기

task-adjusted 비용으로 보면 순서가 달라집니다

💡 토큰 단가 대신 작업 하나를 실제로 처리했을 때의 총 비용을 놓고 보면, 모델 선택 순위가 완전히 바뀌었습니다.

단순히 토큰 단가만 보면 o3($2/$8)가 경쟁 모델 대비 저렴해 보입니다. 그런데 에이전틱 워크플로우에서 실제 작업 하나를 처리하는 데 드는 ‘작업 조정 비용(task-adjusted cost)’을 계산하면 순위가 뒤집힙니다. (출처: Adam Holter, “AI Costs in 2025: Cheaper Tokens, Pricier Workflows”, 2025)

모델 입력 $/1M 출력 $/1M task-adjusted $
GPT-5.4 (high) $2.50 $15.00 $823
Grok-4 $3.00 $15.00 $1,658
o3 $2.00 $8.00 $432
o4-mini (high) $1.70 $4.40 $410
Gemini 2.5 Pro $1.25 $10.00 $983
DeepSeek R1 0528 $0.57 $1.90 $229

o3의 task-adjusted 비용은 $432입니다. 그런데 o4-mini(high)는 $410으로 사실상 비슷하거나 약간 저렴합니다. 입력·출력 단가만 보면 o3가 분명 비싸 보이지만, 실제 작업 비용은 o4-mini와 거의 같다는 뜻입니다. 반면 GPT-5.4는 단가는 비슷해 보여도 task-adjusted 비용이 $823으로 o3의 거의 2배 수준입니다.

이 비교 수치가 말해주는 것은 단순합니다. 토큰 단가를 보고 “이 모델이 싸다”라고 판단하는 건 절반짜리 정보입니다. 실제 작업 흐름에서 reasoning 토큰이 얼마나 붙느냐가 최종 청구서를 결정합니다.

▲ 목차로 돌아가기

실제 청구서에서 찾은 패턴

OpenAI 커뮤니티 포럼에 올라온 실사용 사례를 보면 공통된 패턴이 있습니다. (출처: OpenAI Community Forum – “Reasoning tokens hidden price question”, 2025.08.21)

한 개발자가 GPT-5 mini/nano를 medium 설정으로 호출했더니 대시보드에는 총 120만 토큰이 소비된 것으로 표시됐습니다. 예상 청구액은 약 $7이었는데, 실제 청구서에는 $20이 찍혔습니다. 약 3배 차이였습니다.

💡 대시보드 왼쪽 패널의 토큰 카운터는 입력 토큰만 표시합니다. 출력 토큰(reasoning 토큰 포함)은 별도 드롭다운을 선택해야 보입니다. 이를 모르고 대시보드 숫자만 보면 실제 비용의 일부만 보는 셈입니다.

이 구조를 공식 문서 기준으로 정리하면 이렇습니다. OpenAI API Docs는 “reasoning tokens are billed as output tokens”이라고 명시합니다. 즉 thinking 과정에서 생성된 토큰은 사용자에게 보여주지 않지만, 출력 토큰 단가($8/1M)로 계산돼 청구됩니다. 추론 작업이 복잡할수록 reasoning 토큰이 늘어나고, 결과적으로 청구서 상의 output token 항목이 예상보다 크게 올라갑니다.

에이전틱 워크플로우에서는 이 문제가 더 심각합니다. 계획(Planning), 도구 사용(Tool Use), 자기 검토(Self-Reflection), 메모리 접근(Memory/Retrieval) 각 단계마다 reasoning 토큰이 쌓입니다. 2023년 말 대비 2025년 현재 에이전틱 워크플로우의 작업당 토큰 소비량은 10~100배 증가했다는 분석도 있습니다. (출처: Adam Holter, “AI Costs in 2025”, 2025)

▲ 목차로 돌아가기

o3-pro는 별도 계산이 필요합니다

2025년 6월 10일 o3 가격 인하와 동시에 출시된 o3-pro는 o3보다 더 오래 생각하는 고성능 버전입니다. 가격은 입력 $20/1M, 출력 $80/1M으로, o3 대비 각각 10배 비쌉니다. (출처: OpenAI Community Forum – “O3 is 80% cheaper and introducing o3-pro”, 2025.06.10)

o3-pro는 현재 Responses API를 통해서만 접근 가능합니다. Chat Completions API로는 호출할 수 없습니다. (출처: OpenAI API Docs – o3-pro Model) 이 점을 모르고 기존 코드에서 모델 이름만 바꿨다가 API 에러를 마주하는 경우가 생깁니다.

⚠️ o3-pro 사용 시 응답 생성에 수 분이 걸릴 수 있습니다. OpenAI 공식 문서는 “일부 요청은 완료하는 데 수 분이 걸릴 수 있습니다(some requests may take several minutes to finish)”라고 명시합니다. 타임아웃 설정을 넉넉하게 잡지 않으면 응답을 받지 못한 채 토큰 비용만 발생하는 상황이 생길 수 있습니다. (출처: OpenAI API Docs – o3-pro Model)

o3-pro는 o1-pro를 대체합니다. o1-pro API 가격은 입력 $150/1M, 출력 $600/1M이었는데, o3-pro 기준($20/$80)은 여기서 86% 인하된 수준입니다. (출처: Reddit r/singularity, “o3-pro API pricing”, 2025.06.10) 즉 o3-pro 자체도 전 세대 대비 상당히 저렴해진 것이지만, o3 표준 버전 대비로는 여전히 10배 프리미엄 모델입니다.

▲ 목차로 돌아가기

reasoning 예산을 조절하면 이 정도 차이 납니다

비용을 통제하는 가장 직접적인 방법은 reasoning effort(thinking budget)를 작업 중요도에 따라 단계별로 설정하는 것입니다. o3 API는 reasoning_effort 파라미터로 low / medium / high 중 하나를 선택할 수 있습니다.

💡 thinking budget은 단순히 성능 설정이 아니라, 출력 토큰 과금액 직결 변수입니다.

reasoning 토큰이 출력 토큰으로 청구되기 때문에, thinking 설정을 high → low로 낮추면 reasoning 토큰이 줄고 출력 청구액이 직접 감소합니다.

실무 적용 전략은 다음과 같습니다. 단순 요약이나 데이터 추출처럼 정확도보다 속도가 중요한 단계에서는 low 설정을 기본값으로 유지하고, 안전 판단이나 복잡한 계획 수립 단계에서만 high로 올리는 방식입니다. (출처: Adam Holter, “AI Costs in 2025”, 2025)

비용 면에서 GPT-5 nano를 high reasoning 설정으로 쓰는 것과 GPT-5.4 full을 low reasoning으로 쓰는 것 중 어느 쪽이 더 저렴한지 계산해보면, 상황에 따라 nano + high reasoning이 오히려 full + low reasoning보다 저렴하고 성능은 충분한 경우도 있습니다. 모델 단가만으로 선택을 내리는 게 아니라, 작업별 reasoning 예산을 설계해야 한다는 뜻입니다.

솔직히 말하면, o3 API가 “저렴해졌다”는 것은 맞습니다. 그런데 이전보다 쓰기 쉬워졌다는 것과 비용 예측이 쉬워졌다는 것은 다른 얘기입니다. 가격표가 단순해질수록 실제 청구 구조는 더 복잡해지고 있습니다.

▲ 목차로 돌아가기

Q&A

Q1. o3 API 현재 가격은 정확히 얼마인가요?
2026년 3월 기준, o3 API 가격은 입력 $2/1M 토큰, 출력 $8/1M 토큰입니다. (출처: OpenAI 공식 API 가격 페이지, 2025.06.10 인하 적용) 단, reasoning 토큰은 출력 토큰과 동일 단가로 청구됩니다. 캐시 입력 할인 등은 현재 공식 가격 페이지에서 별도 확인이 필요합니다.
Q2. reasoning 토큰이 뭔가요? 왜 따로 주의해야 하나요?
o3 같은 추론 모델은 최종 답변을 내기 전에 내부적으로 “생각”하는 과정을 거칩니다. 이 과정에서 소비되는 토큰이 reasoning 토큰입니다. 이 토큰은 API 응답에서 보이지 않지만 출력 토큰으로 청구됩니다. (출처: OpenAI API Docs – Reasoning Models) 복잡한 작업일수록 reasoning 토큰이 늘어나 예상보다 청구액이 높아질 수 있습니다.
Q3. o3와 o4-mini 중 어느 게 실제로 더 저렴한가요?
토큰 단가 기준으로는 o4-mini($1.70/$4.40)가 o3($2/$8)보다 저렴합니다. task-adjusted 비용 기준으로도 o4-mini(high)가 약 $410, o3가 약 $432로 o4-mini 쪽이 소폭 저렴합니다. (출처: Adam Holter, 2025) 단, 최고 난이도 추론 작업에서는 o3가 o4-mini보다 20% 적은 주요 오류를 냅니다. (출처: OpenAI o3 공식 발표, 2025.04.16) 비용 대비 정확도 요구 수준에 따라 선택이 달라집니다.
Q4. o3-pro와 o3의 차이가 뭔가요? 언제 써야 하나요?
o3-pro는 o3보다 더 오래 생각하는 고성능 버전으로, 가격은 입력 $20/1M, 출력 $80/1M으로 o3의 10배입니다. (출처: OpenAI Community Forum, 2025.06.10) 현재 Responses API를 통해서만 접근 가능합니다. 신뢰성과 정확도가 극히 중요한 작업(법률·의학·고위험 의사결정 보조 등)에 적합하며, 일반적인 코딩·분석 작업에는 o3 표준으로 충분한 경우가 많습니다.
Q5. o3 API 비용을 낮추는 가장 효과적인 방법은 뭔가요?
가장 직접적인 방법은 reasoning_effort 파라미터를 작업 중요도에 맞게 조정하는 것입니다. 단순 작업에는 low, 복잡한 판단이 필요한 단계에서만 high로 설정합니다. 그 외에는 캐시 입력 활용(동일 컨텍스트 반복 시 비용 절감), 에이전트 프롬프트 간결화(불필요한 시스템 프롬프트 제거), 작업 분류 후 저렴한 모델로 라우팅하는 방식이 있습니다. (출처: Adam Holter, “AI Costs in 2025”, 2025)

▲ 목차로 돌아가기

마치며

o3 API 80% 인하는 분명히 큰 변화입니다. 개인 개발자와 스타트업이 전에는 엄두도 못 냈던 추론 모델을 실전 서비스에 붙일 수 있게 됐다는 점은 진짜입니다.

그런데 “$2면 싸다”라는 감각으로 API를 쓰기 시작하면 두 달째 청구서에서 당황하는 경우가 생깁니다. reasoning 토큰이 출력 토큰으로 과금되는 구조, 대시보드의 기본 뷰가 입력 토큰만 표시하는 구조, 에이전틱 워크플로우에서 토큰 소비량이 기하급수적으로 늘어나는 구조 — 이 세 가지를 모르면 가격표와 청구서 사이의 간극을 좁히기 어렵습니다.

결론부터 말씀드리면, o3는 여전히 같은 성능대에서 경쟁력 있는 모델입니다. 다만 “싸졌다”와 “예측 가능해졌다”는 다른 얘기입니다. reasoning 예산을 명시적으로 설계하는 습관이 있는 개발자에게는 훨씬 강력한 도구가 됩니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 API 가격 페이지 — https://openai.com/api/pricing/
  2. OpenAI 공식 발표 “Introducing OpenAI o3 and o4-mini” (2025.04.16) — https://openai.com/index/introducing-o3-and-o4-mini/
  3. OpenAI Community Forum – “O3 is 80% cheaper and introducing o3-pro” (2025.06.10) — https://community.openai.com/t/o3-is-80-cheaper-and-introducing-o3-pro/1284925
  4. Adam Holter – “AI Costs in 2025: Cheaper Tokens, Pricier Workflows” — adam.holter.com
  5. Arxiv – “Predictive Auditing of Hidden Tokens in LLM APIs via Reasoning” (2025.07.29) — https://arxiv.org/html/2508.00912v1
  6. OpenAI Community Forum – “Reasoning tokens hidden price question” (2025.08.21) — https://community.openai.com/t/reasoning-tokens-hidden-price-question/1353099

※ 본 포스팅은 2026년 3월 19일 기준 공개된 공식 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 OpenAI 서비스 정책·가격·UI·기능이 변경될 수 있습니다. API 가격 및 모델 사양은 반드시 공식 가격 페이지에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기