2026.03.30 기준
o3 모델 기준
IT/AI

OpenAI o3 API 요금, 표시 토큰만 믿으면 청구서가 달라집니다

공식 페이지에는 입력 $2, 출력 $8이라고 나와 있습니다. 그런데 실제 청구서를 열어본 개발자들 중 상당수가 예상치의 3~5배 요금을 마주했습니다. 리즈닝 토큰이 응답 본문에는 보이지 않으면서 출력 토큰 가격 그대로 청구된다는 사실이 OpenAI 공식 문서에 명시돼 있기 때문입니다. 이 포스팅에서 그 구조를 수치로 분해해 봤습니다.

o3 입력 토큰

$2.00 / 1M

o3 출력 토큰

$8.00 / 1M

리즈닝 토큰 요금

출력가 동일

o3 API 요금, 공식 페이지에는 이렇게 나옵니다

OpenAI 공식 API 요금 페이지(openai.com/api/pricing)를 2026년 3월 30일 기준으로 직접 확인했습니다. o3의 표준 요금은 입력 토큰 $2.00 / 1M, 출력 토큰 $8.00 / 1M, 캐시된 입력 토큰 $1.00 / 1M입니다. 여기에 Batch API를 쓰면 입력 $1, 출력 $4로 절반이 됩니다.

같은 페이지에서 o-시리즈 전체 라인업을 보면 구도가 좀 더 명확해집니다.

모델	입력 (1M)	출력 (1M)	캐시 입력	컨텍스트
o3	$2.00	$8.00	$1.00	200K
o3-pro	$20.00	$80.00	없음	200K
o4-mini	$1.10	$4.40	$0.275	200K
o1	$15.00	$60.00	$7.50	200K
o1-pro	$150.00	$600.00	없음	200K

(출처: OpenAI 공식 API 요금 페이지, 2026.03.30 기준 / openai.com/api/pricing)

▲ 목차로 돌아가기

보이지 않는 토큰이 요금에 잡히는 이유

o3를 포함한 o-시리즈 모델은 응답을 생성하기 전에 내부적으로 ‘생각하는’ 과정을 거칩니다. 이 과정에서 발생하는 토큰이 바로 리즈닝 토큰(reasoning tokens)입니다. 중요한 건 이 토큰이 API 응답 본문에는 전혀 나타나지 않는다는 점입니다.

💡 공식 문서에 이렇게 나옵니다

“While reasoning tokens are not visible via the API, they still occupy space in the model’s context window and are billed as output tokens.” — OpenAI 공식 Reasoning 가이드 (developers.openai.com/api/docs/guides/reasoning)

→ 보이지 않아도 출력 토큰 요금($8/1M)이 그대로 붙습니다.

같은 문서에서 OpenAI는 리즈닝 토큰의 양이 “a few hundred to tens of thousands”에 이를 수 있다고 밝혔습니다. 문제의 복잡도에 따라 수백 토큰에서 수만 토큰까지 발생한다는 뜻입니다. 실제 API 응답의 `output_tokens_details.reasoning_tokens` 필드에서 숫자를 직접 확인할 수 있습니다.

OpenAI 공식 커뮤니티에는 2025년 8월 기준, GPT-5 모델 계열을 쓰면서 예상 요금의 3배 이상 청구가 나왔다는 글이 올라왔고 OpenAI 내부 직원이 “출력 토큰 표시에 리즈닝 토큰이 포함되지 않아 생기는 혼동”이라고 직접 답변했습니다. 리즈닝 토큰이 숨겨진 구조 자체가 플랫폼 설계 문제로 지적된 부분입니다.

▲ 목차로 돌아가기

$10→$2, 80% 인하가 생각보다 단순하지 않은 이유

2025년 6월 10일, OpenAI CEO 샘 알트만이 직접 X(트위터)를 통해 o3 가격 80% 인하를 발표했습니다. 입력 토큰 $10 → $2, 출력 토큰 $40 → $8로 낮아졌습니다. 이 발표와 함께 o3-pro가 공개됐고, 표면상으로는 “드디어 o3가 합리적인 가격이 됐다”는 반응이 지배적이었습니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

80% 인하는 표시 토큰 기준입니다. 리즈닝 토큰이 응답 토큰의 2~5배 발생하는 워크로드라면, 실질 인하 폭은 80%보다 작습니다. 동시에 o3-pro가 $20/$80으로 출시돼 ‘o3의 포지션’이 사실상 중간 티어로 밀렸습니다.

가격 인하 직후 AI 분석 사이트 Artificial Analysis는 o3의 Intelligence Index 전체 평가 비용이 $1,024.79였다고 공개했습니다. 이는 같은 벤치마크 기준 평균 비용 대비 높은 편입니다. 토큰당 요금이 낮아졌지만, 추론 강도가 높은 작업에서는 총 토큰 소모량이 그만큼 많다는 의미입니다.

경쟁 모델과 비교하면, Gemini 2.5 Pro는 입력 $1.25, 출력 $10으로 o3와 유사한 구간에 있습니다. 단, Gemini는 현재 공개된 리즈닝 토큰 청구 구조가 o3와 다르게 적용돼 단순 요금표 비교만으로는 실제 비용 차이를 판단하기 어렵습니다.

▲ 목차로 돌아가기

o3 vs o3-pro vs o4-mini, 요금 구조 비교

세 모델을 같은 기준에서 놓고 보면 몇 가지 구조적 특징이 드러납니다. o3-pro는 o3 대비 입출력 요금이 각각 10배입니다. 그런데 o1-pro와 o1의 비율도 정확히 10배($150/$600 vs $15/$60)입니다. 이 비율이 일관된 건 단순한 가격 설정이 아니라 ‘pro 티어’라는 구분이 10배 가격을 기준점으로 삼고 있다는 점을 보여줍니다.

비교 항목	o4-mini	o3	o3-pro
입력 (1M)	$1.10	$2.00	$20.00
출력 (1M)	$4.40	$8.00	$80.00
캐시 입력 할인	50%	50%	없음
Batch API 지원	✅	✅	공식 미확인
o3 대비 요금 비율	약 55%	기준	10배

(출처: OpenAI 공식 API 요금 페이지 / tldl.io OpenAI API Pricing 비교표, 2026.03.05 업데이트)

o4-mini는 o3보다 입력 단가가 낮고 같은 200K 컨텍스트를 지원합니다. CostGoat의 분석(2026.02.08)에 따르면 단순 추론이나 코딩 작업에서는 o4-mini가 실질 비용 대비 성능이 유리한 경우가 많습니다. o3를 쓸 이유가 있는 건 더 어려운 멀티스텝 추론, 수학·과학 계산처럼 정밀도가 중요한 태스크입니다.

▲ 목차로 돌아가기

실제 요금이 3~5배 나오는 케이스 계산

공식 문서가 말하는 “수백~수만 토큰”이 얼마의 차이를 만드는지, 실제 숫자로 따져봤습니다. 아래 계산은 o3 표준 요금($2 입력/$8 출력)을 기준으로 했습니다.

📊 시나리오 A — 리즈닝 토큰이 적은 경우 (단순 쿼리)

입력 토큰: 500개 → 500 × $0.000002 = $0.001
표시 출력 토큰: 300개
리즈닝 토큰: 200개 (적은 편)
총 출력 토큰: 500개 → 500 × $0.000008 = $0.004
실제 청구: $0.005 / 예상(표시 기준): $0.0034 → 약 1.5배

📊 시나리오 B — 리즈닝 토큰이 많은 경우 (복잡한 추론 태스크)

입력 토큰: 1,000개 → 1,000 × $0.000002 = $0.002
표시 출력 토큰: 500개
리즈닝 토큰: 2,500개 (복잡 추론)
총 출력 토큰: 3,000개 → 3,000 × $0.000008 = $0.024
실제 청구: $0.026 / 예상(표시 기준): $0.006 → 약 4.3배

OpenAI 커뮤니티의 실사례에서는 예상 요금의 3배 이상이 청구된 사례가 보고됐고, frugal.co의 분석(2025.11.06)에서는 “1,000토큰 응답 뒤에 5,000개의 리즈닝 토큰이 붙을 수 있다”고 정리했습니다. 리즈닝 토큰이 표시 출력의 5배라면 총 비용은 예상치의 약 6배까지 오릅니다.

리즈닝 토큰 실제 소비량은 API 응답의 output_tokens_details.reasoning_tokens 값을 직접 기록하는 것이 유일한 정확한 방법입니다.

▲ 목차로 돌아가기

Batch·Flex·캐싱으로 요금 줄이는 방법

OpenAI는 세 가지 비용 절감 경로를 공식적으로 제공합니다. 각각의 조건과 실제 절감 폭을 정리해 봤습니다.

① Batch API — 50% 할인

24시간 내 비동기 처리 조건으로 입출력 토큰 모두 50% 할인. o3 기준 입력 $1, 출력 $4로 낮아집니다. 실시간 응답이 불필요한 배치 작업, 데이터 분석, 콘텐츠 처리에 적합합니다.

② 프롬프트 캐싱 — 50% 할인

o3는 캐시 입력 토큰이 $1.00 / 1M으로 표준 입력($2.00)의 50%입니다. 시스템 프롬프트나 긴 컨텍스트가 반복되는 RAG·챗봇 구조에서 입력 비용을 절반으로 줄일 수 있습니다. 캐시 유효 시간은 약 5~10분입니다.

③ Flex 처리 — 가변 할인

수요가 낮은 시간대에 자동 라우팅돼 처리 지연 대신 비용을 낮추는 방식입니다. o3와 o4-mini 모두 지원합니다. 프로덕션 미임박 작업에 유리하지만 응답 시간 SLA가 보장되지 않습니다.

OpenAI 공식 비용 최적화 문서(developers.openai.com/api/docs/guides/cost-optimization)는 reasoning_effort 파라미터를 낮추는 방법도 제시합니다. `reasoning.effort`를 `low`로 설정하면 리즈닝 토큰 발생 자체를 줄여 실질 비용이 내려갑니다. 단, 복잡도 높은 태스크에서는 결과 품질 저하가 올 수 있어 eval 검증이 선행돼야 합니다.

OpenAI 공식 문서는 리즈닝 모델 사용 시 `max_output_tokens` 파라미터로 총 출력 토큰 한도를 명시적으로 설정하도록 권장합니다. 한도 도달 시 응답이 `incomplete` 상태로 반환되므로, 입력·리즈닝 토큰 비용만 나가고 유효한 출력을 받지 못하는 최악의 케이스를 막을 수 있습니다.

▲ 목차로 돌아가기

o3가 불리한 상황, 직접 따져봤습니다

o3가 무조건 좋은 선택이 아닌 시나리오가 있습니다. CostGoat의 사용 가이드와 공식 요금 구조를 교차해서 분석해 봤을 때 아래 세 가지 경우에서는 o3 대신 다른 모델이 유리합니다.

⚠️ o3가 손해인 상황 3가지

단순 분류·라우팅·추출 작업: 리즈닝이 필요 없는 태스크에서 리즈닝 토큰이 발생하면 순수 낭비입니다. GPT-5 Nano($0.05/$0.40)나 GPT-4.1 Nano가 동일한 결과를 10~40배 저렴하게 냅니다.
1M 토큰 이상 긴 컨텍스트 처리: o3는 최대 200K 컨텍스트입니다. GPT-4.1은 1M 컨텍스트를 지원하면서 같은 $2/$8 요금입니다. 긴 문서 분석이라면 GPT-4.1이 맞습니다.
o3-pro 대신 쓰는 경우로 착각할 때: o3-pro는 캐시 할인도 없고 10배 비쌉니다. 성능 차이가 실제로 10배 이상의 비용 가치를 만드는지 먼저 eval로 확인해야 합니다. OpenAI가 공식 이유를 별도로 밝히지 않은 가격 구조입니다.

Artificial Analysis의 실측치에서 o3는 Intelligence Index 기준 38점으로 상위권이지만, 같은 비용 대비 점수 효율에서는 o4-mini가 더 높은 경우가 있습니다. 비용 대비 성능 최적점을 찾으려면 자신의 태스크 유형에 맞는 벤치마크를 직접 돌려보는 것 외에 방법이 없습니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Q. o3 API는 ChatGPT Plus 구독과 별개인가요?

완전히 별개입니다. ChatGPT Plus는 chatgpt.com 인터페이스에서 o3를 일정 횟수 사용할 수 있는 구독권이고, API는 OpenAI Platform에서 크레딧을 충전해 토큰 단위로 과금되는 구조입니다. Plus 구독료가 API 크레딧으로 전환되지 않습니다.

Q. 리즈닝 토큰이 얼마나 발생했는지 확인할 수 있나요?

네. API 응답 객체의 usage.output_tokens_details.reasoning_tokens 필드에서 수치를 직접 확인할 수 있습니다. OpenAI 공식 Reasoning 가이드(developers.openai.com/api/docs/guides/reasoning)에 예시 응답 JSON이 나와 있습니다.

Q. o3와 o4-mini 중 어떤 걸 써야 할까요?

대부분의 코딩·일반 추론 작업에서는 o4-mini를 먼저 써보는 게 합리적입니다. o3보다 입출력 요금이 낮고(입력 $1.10 vs $2.00), 캐시 할인도 동일하게 적용됩니다. o3가 유리한 경우는 수학·과학 계열의 고난도 추론처럼 정밀도가 올라가야 하는 태스크입니다. 직접 eval을 돌려 확인하는 것이 가장 확실합니다.

Q. Batch API로 리즈닝 토큰도 할인이 되나요?

리즈닝 토큰은 출력 토큰으로 청구됩니다. Batch API는 입출력 토큰 모두 50% 할인이 적용되므로, 리즈닝 토큰에도 Batch 할인 요금이 적용됩니다. 즉, Batch 모드에서는 o3 출력(+리즈닝) 토큰이 $4/1M으로 처리됩니다.

Q. o3-pro 쓸 만한 상황이 따로 있나요?

OpenAI 공식 커뮤니티 발표(2025.06.10)에서 o3-pro를 “더 많은 컴퓨팅을 사용하는 버전”으로 설명했습니다. 캐시 할인 없이 10배 비싼 구조이므로, o3 대비 명확한 성능 우위를 eval로 확인한 다음 도입하는 것이 현실적입니다. 특정 도메인에서 정밀도가 임계치를 넘어야 하는 의료·법률·금융 자동화 파이프라인이 주요 사용 사례입니다.

마치며

o3 API 요금은 표면상 $2/$8로 단순해 보이지만, 실제 청구 구조를 이해하지 못하면 예산 계획이 틀어집니다. 핵심은 리즈닝 토큰이 응답에 보이지 않으면서 출력 토큰 가격으로 청구된다는 점입니다. 복잡한 태스크일수록 이 비율이 커지고, 단순 토큰 수 계산으로는 실제 비용을 예측하기 어렵습니다.

80% 가격 인하는 분명 의미 있는 변화입니다. 하지만 인하 이전 가격이 워낙 높았고, 현재도 o4-mini와 비교하면 o3가 항상 유리한 선택은 아닙니다. 솔직히 말하면 많은 워크로드에서 o4-mini를 먼저 써보고, 성능 부족이 확인될 때 o3로 올라가는 흐름이 비용 면에서 훨씬 합리적입니다.

리즈닝 토큰 수치를 매 호출마다 기록하고, `reasoning.effort` 파라미터를 조정하면서 태스크별 최적점을 찾는 것이 현재 시점에서 o3를 가장 잘 쓰는 방법입니다.

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI API 요금은 공지 없이 변경될 수 있으므로 실제 적용 전 공식 요금 페이지에서 최신 정보를 반드시 확인하시기 바랍니다.

OpenAI o3 API 요금, 표시 토큰만 믿으면 청구서가 달라집니다

OpenAI o3 API 요금, 표시 토큰만 믿으면 청구서가 달라집니다

o3 API 요금, 공식 페이지에는 이렇게 나옵니다

보이지 않는 토큰이 요금에 잡히는 이유

$10→$2, 80% 인하가 생각보다 단순하지 않은 이유

o3 vs o3-pro vs o4-mini, 요금 구조 비교

실제 요금이 3~5배 나오는 케이스 계산

Batch·Flex·캐싱으로 요금 줄이는 방법

o3가 불리한 상황, 직접 따져봤습니다

자주 묻는 질문 (Q&A)

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

OpenAI o3 API 요금, 표시 토큰만 믿으면 청구서가 달라집니다

o3 API 요금, 공식 페이지에는 이렇게 나옵니다

보이지 않는 토큰이 요금에 잡히는 이유

$10→$2, 80% 인하가 생각보다 단순하지 않은 이유

o3 vs o3-pro vs o4-mini, 요금 구조 비교

실제 요금이 3~5배 나오는 케이스 계산

Batch·Flex·캐싱으로 요금 줄이는 방법

o3가 불리한 상황, 직접 따져봤습니다

자주 묻는 질문 (Q&A)

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기