OpenAI o3 API, 싸졌다고요? 이 토큰이 빠집니다

Published on

in

OpenAI o3 API, 싸졌다고요? 이 토큰이 빠집니다

2026.03.20 기준 / o3 model (o3-2025-04-16)
TECH

OpenAI o3 API, 싸졌다고요?
이 토큰이 빠집니다

결론부터 말씀드리면, 표시 요금만 보면 분명히 싸졌습니다. 그런데 막상 청구서를 열어보면 예상보다 2~3배 나오는 경우가 있습니다. 공식 문서에 명시된 reasoning token 때문입니다. 이 글은 OpenAI 공식 문서를 직접 읽고 그 차이를 수치로 확인한 내용입니다.

-80%
2025.06 가격 인하
$2/$8
현재 입력/출력(1M tokens)
청구됨
보이지 않는 reasoning token

가격은 분명히 내렸습니다 — 그런데 뭔가 이상합니다

2025년 6월 10일, OpenAI는 o3 API 요금을 80% 인하했습니다. Sam Altman이 공식 X(트위터)를 통해 직접 발표한 내용입니다. 인하 전에는 입력 1M 토큰에 $10, 출력에 $40이었는데, 인하 후 각각 $2, $8로 바뀌었습니다. (출처: smythos.com OpenAI o3 Price Analysis, 2025.06)

그 전후 비교를 표로 정리하면 이렇습니다.

구분 인하 전 (2025.06 이전) 현재 (2026.03 기준) 변화율
입력 (1M tokens) $10.00 $2.00 -80%
출력 (1M tokens) $40.00 $8.00 -80%
캐시 입력 (1M tokens) $0.50 신규

(출처: OpenAI 공식 모델 페이지 platform.openai.com/docs/models/o3, 2026.03.20 확인)

숫자만 보면 매력적입니다. GPT-4o($2.50/$10.00)보다도 싸고, o1($15.00/$60.00)과는 비교 자체가 다릅니다. 그런데 실제 청구서가 예상과 다르게 나온다는 사례가 OpenAI 커뮤니티에 꾸준히 올라오고 있습니다. 이 차이를 만드는 것이 바로 reasoning token입니다.

▲ 목차로 돌아가기

보이지 않아도 청구되는 토큰이 있습니다

o3는 reasoning 모델입니다. 사용자 질문에 바로 답하는 게 아니라, 먼저 내부적으로 생각하는 과정을 거칩니다. 이 사고 과정에서 소비하는 토큰을 reasoning token이라고 부릅니다.

💡 공식 문서와 실제 청구 흐름을 같이 놓고 보니 이런 차이가 보였습니다

OpenAI 공식 가이드(platform.openai.com/docs/guides/reasoning)는 이렇게 명시하고 있습니다: “While reasoning tokens are not visible via the API, they still occupy space in the model’s context window and are billed as output tokens.” — 즉, 응답에는 보이지 않지만 output token 단가($8/1M)로 청구됩니다. 이 한 문장이 실제 비용 차이를 만드는 핵심입니다.

API 응답 객체를 직접 파싱하면 이런 구조로 사용량이 반환됩니다. (출처: OpenAI 공식 Reasoning 가이드, 2026.03 기준)

{
"usage": {
"input_tokens": 75,
"output_tokens": 1186,
"output_tokens_details": {
"reasoning_tokens": 1024  ← 이게 output에 포함돼 청구됩니다
},
"total_tokens": 1261
}
}

output_tokens가 1,186인데 그 중 1,024가 reasoning token입니다. 실제로 응답 텍스트로 받은 것은 162 토큰(1,186 – 1,024)에 불과하지만, 청구는 1,186 토큰 전체에 대해 $8/1M 단가가 적용됩니다. 응답 길이만 보고 비용을 추정하면 실제 청구액의 15%만 예상하는 셈입니다.

▲ 목차로 돌아가기

실제로 얼마나 나올까요 — 직접 계산해봤습니다

간단한 수식 하나를 직접 따라 해볼 수 있게 정리했습니다. 아래 시나리오를 기준으로 합니다.

시나리오: 코딩 태스크 1회 호출
– 입력 프롬프트: 2,000 tokens
– reasoning tokens(내부): 8,000 tokens (추정 — 복잡한 코딩 문제 기준, 공식 문서 “수백~수만 토큰”)
– 실제 답변 텍스트: 1,000 tokens
비용 계산식 (o3 기준, 2026.03)

입력비용: 2,000 / 1,000,000 × $2.00 = $0.004
출력비용: (8,000 + 1,000) / 1,000,000 × $8.00 = $0.072
─────────────────────────────
총 비용: $0.076 / 호출

→ 답변 텍스트 1,000 토큰만 보고 계산했을 경우: $0.004 + $0.008 = $0.012
→ 실제 청구 vs 단순 추정 차이: 약 6.3배

이 계산이 의미하는 것은 단순합니다. reasoning token 비중이 높을수록 예상 비용과 실제 비용 사이의 간극이 커집니다. 복잡한 수학, 과학, 코딩 문제일수록 reasoning token이 늘어나고, 간단한 요약·분류 작업에서는 줄어듭니다. 문제 복잡도가 비용을 결정하는 핵심 변수입니다.

▲ 목차로 돌아가기

여기서 돈이 조용히 빠져나갑니다

max_output_tokens 미설정 시 응답 0 + 비용 발생

OpenAI 공식 문서(platform.openai.com/docs/guides/reasoning)에는 이런 경고가 있습니다: “This might occur before any visible output tokens are produced, meaning you could incur costs for input and reasoning tokens without receiving a visible response.”

max_output_tokens를 너무 낮게 설정하면 reasoning 도중에 컨텍스트 한도에 걸려 응답 텍스트 없이 호출이 종료됩니다. 이 경우 비용은 청구되지만 실제 답은 받지 못합니다. OpenAI는 공식적으로 “최소 25,000 토큰 이상을 reasoning과 output을 위해 예약해 둘 것”을 권장하고 있습니다. (출처: OpenAI Reasoning Guide, 2026.03 기준)

💡 흔히 간과하는 지점을 공식 문서에서 직접 확인했습니다

API 대시보드의 token 사용량 뷰는 기본적으로 입력 토큰만 보여줍니다. 출력·reasoning 토큰 확인을 위해서는 platform.openai.com/usage/chat-completions 에서 별도로 필터를 바꿔 드릴다운해야 합니다. OpenAI 커뮤니티 포럼(2025.08)에서도 “대시보드 숫자만 보고 계산했더니 실제 청구가 3배 나왔다”는 사례가 보고된 바 있습니다.

Tier 1에서 복잡한 태스크를 돌리면 바로 막힙니다

o3 모델의 Tier 1 rate limit은 분당 요청 500회, 분당 30,000 TPM입니다. (출처: platform.openai.com/docs/models/o3) 코딩 태스크 1회에 reasoning token 포함 9,000 토큰이 나온다고 하면, 30,000 TPM 한도에서는 분당 3.3회밖에 호출할 수 없습니다. 에이전트나 자동화 파이프라인을 구성할 때 처음부터 Tier 2 이상을 전제해야 한다는 뜻입니다.

▲ 목차로 돌아가기

o3, 언제까지 쓸 수 있는 모델인가요

OpenAI 공식 모델 페이지(platform.openai.com/docs/models/o3)는 현재 이렇게 명시하고 있습니다: “o3 is succeeded by GPT-5.” — o3는 GPT-5로 공식 승계됐습니다.

💡 o3와 GPT-5의 요금·성능을 직접 비교해보니 이런 관계가 보였습니다

o3는 입력 $2, 출력 $8. GPT-5(gpt-5.1 기준)는 입력 $1.25, 출력 $10입니다. (출처: pricepertoken.com, 2026.03.19 기준) 가격 구조가 다릅니다. o3는 입력 단가가 높고 출력이 낮으며, GPT-5는 입력이 저렴하지만 출력 단가가 높습니다. 어떤 워크로드냐에 따라 유리한 모델이 달라지는 이유입니다. 입력 토큰 비중이 크고 reasoning이 짧게 끝나는 작업이라면 GPT-5 mini($0.25/$2.00)가 더 유리할 수 있습니다.

o3의 스냅샷은 현재 o3-2025-04-16 하나만 제공됩니다. OpenAI는 모델 스냅샷을 고정해 “일관된 동작”을 보장하지만, 향후 지원 종료 일정은 별도 확인이 필요합니다.

▲ 목차로 돌아가기

o3 vs o3-mini vs o4-mini — 뭘 써야 할까요

모델 입력 (1M) 출력 (1M) Coding 점수 적합한 용도
o3 $2.00 $8.00 80.8 복잡 추론, 멀티스텝 코딩
o3-mini $0.55 $2.20 71.7 중간 난이도, 비용 중시
o3-mini-high $1.10 $4.40 73.4 정밀도 우선, 중간 비용
o4-mini $0.55 $2.20 85.9 현재 최고 성능/비용비

(출처: pricepertoken.com OpenAI 모델 비교, 2026.03.19 기준 / Coding 점수는 해당 플랫폼 기재 벤치마크 수치)

솔직히 말하면, 현시점에서 o4-mini는 코딩 벤치마크 기준 85.9로 o3(80.8)를 앞서면서 요금은 o3-mini와 같습니다. 지금 새로 파이프라인을 구성한다면 o4-mini가 먼저 검토 대상입니다. o3를 굳이 선택해야 하는 시나리오는 기존 시스템이 o3 스냅샷에 고정돼 있거나, o3-specific 벤치마크에서 테스트된 결과를 재현해야 하는 경우 정도입니다.

▲ 목차로 돌아가기

비용을 실제로 줄이는 방법 3가지

1

reasoning effort를 낮추세요

OpenAI Responses API는 reasoning.effort 파라미터를 지원합니다. low로 설정하면 reasoning token 소모가 줄어들고 응답 속도도 빨라집니다. 간단한 추출·분류 태스크에서 none을 쓰면 GPT 계열과 동일하게 reasoning token 없이 처리됩니다. (출처: OpenAI Reasoning Guide, platform.openai.com/docs/guides/reasoning)

2

캐시 입력을 적극 활용하세요

o3의 캐시 입력 단가는 $0.50/1M으로 일반 입력의 25% 수준입니다. 시스템 프롬프트나 컨텍스트가 반복적으로 사용되는 구조라면 Responses API의 previous_response_id를 활용해 이전 응답을 재사용하면 입력 비용을 크게 줄일 수 있습니다.

3

Batch API를 씁니다 — 50% 절약

OpenAI Batch API는 24시간 이내 처리 조건으로 일반 요금의 50%에 처리할 수 있습니다. 실시간 응답이 불필요한 대량 태스크(데이터 분류, 요약 배치 등)라면 Batch API 사용이 훨씬 유리합니다. (출처: openai.com/api/pricing, v1/batch endpoint)

▲ 목차로 돌아가기

자주 묻는 질문

Q1. reasoning token은 무조건 발생하나요?
o3 같은 reasoning 모델은 기본적으로 reasoning token이 발생합니다. 단, Responses API에서 reasoning.effort: "none"으로 설정하면 reasoning 과정 없이 직접 응답하는 모드로 전환됩니다. 단순 추출이나 번역 태스크에서는 이 설정이 비용과 속도 모두 유리합니다. (출처: OpenAI Reasoning Guide, 2026.03)
Q2. o3와 GPT-5 중 어떤 걸 써야 하나요?
OpenAI는 공식적으로 “o3는 GPT-5로 승계되었다”고 밝혔습니다. 현재 GPT-5(gpt-5.1 기준) 입력은 $1.25/1M으로 o3($2.00)보다 낮고, 컨텍스트 창도 400K로 o3(200K)보다 넓습니다. 새 프로젝트라면 GPT-5 계열이 우선 검토 대상입니다. o3는 기존 코드베이스 유지 또는 특정 스냅샷 고정이 필요한 경우에 사용하는 형태가 됩니다.
Q3. 대시보드에서 reasoning token을 확인할 수 있나요?
기본 뷰에서는 입력 토큰만 보입니다. platform.openai.com/usage/chat-completions 에서 날짜 범위를 설정하고 “output tokens” 필터를 직접 체크해야 reasoning token 포함 출력 사용량이 보입니다. API 응답 객체에서는 output_tokens_details.reasoning_tokens 필드로 확인 가능합니다.
Q4. o3 Free tier에서 쓸 수 있나요?
공식 문서 기준으로 o3는 Free tier에서 지원되지 않습니다. Tier 1(최소 결제 이력 필요)부터 사용 가능합니다. (출처: platform.openai.com/docs/models/o3 Rate limits 표) ChatGPT Plus 구독자는 ChatGPT 인터페이스에서 o3를 제한적으로 사용할 수 있지만, API 접근과는 별개입니다.
Q5. o3-pro는 뭐가 다른가요?
o3-pro는 입력 $20/1M, 출력 $80/1M으로 표준 o3(입력 $2, 출력 $8)보다 10배 비쌉니다. 벤치마크 기준 GPQA 점수는 84.5로 o3(82.7)보다 높지만 가격 차이가 크기 때문에, 일반 개발·프로토타이핑 용도에서는 비용 대비 효율이 낮습니다. 의료·법률 등 정밀도가 극단적으로 중요한 도메인에서 활용 사례가 있습니다. (출처: pricepertoken.com, 2026.03)

▲ 목차로 돌아가기

마치며

o3 API 요금 80% 인하는 분명히 반가운 소식입니다. 그런데 표시 가격만 보고 예산을 잡으면 실제 청구서에서 당황할 수 있습니다. reasoning token은 응답 텍스트에 보이지 않지만 output 단가($8/1M)로 청구되고, 복잡한 태스크일수록 그 비중이 올라갑니다.

max_output_tokens 미설정으로 응답 없이 비용만 나가는 함정, 대시보드에서 reasoning token이 보이지 않는 구조, Tier 1에서 복잡 태스크의 rate limit 충돌 — 이 세 가지를 처음부터 알고 시작하면 상당한 낭비를 줄일 수 있습니다.

지금 새로 프로젝트를 시작한다면 o4-mini(벤치마크 85.9, o3-mini와 동가격)를 우선 고려하고, o3는 기존 코드베이스 유지 목적으로 접근하는 게 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 o3 모델 페이지 (platform.openai.com/docs/models/o3)
  2. OpenAI Reasoning 모델 공식 가이드 (platform.openai.com/docs/guides/reasoning)
  3. OpenAI 공식 API 가격 페이지 (openai.com/api/pricing)
  4. pricepertoken.com — OpenAI 모델 요금 비교 (2026.03.19 기준)
  5. SmythOS — OpenAI o3 80% 가격 인하 분석 (2025.06)

⚠️ 면책 조항: 본 포스팅은 2026년 3월 20일 기준으로 작성되었으며, OpenAI API 요금·모델 사양·서비스 정책은 사전 공지 없이 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 실제 예산 계획 수립 시 반드시 OpenAI 공식 페이지에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기