o3 API 요금, 실제로 계산해봤더니 5배 나왔습니다

Published on

in

o3 API 요금, 실제로 계산해봤더니 5배 나왔습니다

2025.06.10 가격 기준
OpenAI o3 공식 문서 기준

o3 API 요금, 실제로 계산해봤더니 5배 나왔습니다

표시 가격은 GPT-4.1과 똑같습니다. 그런데 청구서는 달랐습니다. 이유는 reasoning tokens — 대부분의 블로그가 언급하지 않는 부분입니다.

80% 인하, 맞습니다 — 그런데 어느 가격의 80%인가요

결론부터 말씀드리면, o3 API 요금이 2025년 6월 10일에 80% 인하된 건 사실입니다. 입력 토큰 100만 개당 $10이었던 가격이 $2로, 출력은 $40에서 $8로 떨어졌습니다. (출처: OpenAI 공식 가격 페이지, 2025.06.10) 숫자만 보면 얘기가 끝난 것 같지만, 사실 여기서부터 문제가 시작됩니다.

인하 이후 표시 가격은 GPT-4.1과 완전히 동일합니다. 입력 $2, 출력 $8 — 토크나이저 기준까지 같습니다. 같은 모델 페이지에서 같은 숫자가 보이면 당연히 같은 요금이겠지 싶을 텐데, 막상 한 달 청구서를 열어보면 o3 쪽이 훨씬 많이 찍혀 있습니다. 이유는 reasoning tokens입니다.

▲ 목차로 돌아가기

표시 가격이 같아도 청구서가 다른 이유

💡 공식 요금표와 실제 청구 내역을 같이 놓고 보니 이런 차이가 보였습니다.

o3는 추론 모델입니다. 최종 답변을 출력하기 전에 내부에서 ‘생각하는 과정’을 먼저 거칩니다. 이 과정에서 생성되는 토큰이 reasoning tokens인데, 이게 전부 출력 토큰 요금으로 청구됩니다. (출처: OpenAI 공식 API 문서 — developers.openai.com/api/docs/pricing)

GPT-4.1로 800토큰짜리 답변을 받는 작업이라면 그냥 800토큰 출력 요금만 냅니다. 같은 작업을 o3에 맡기면 800토큰 답변 + 약 2,200토큰 reasoning = 총 3,000토큰 출력 요금이 나옵니다. (출처: perunit.ai/blog/openai-o3-api-pricing, 2026.03.13) 표시 단가는 동일해도 토큰 수 자체가 3.75배 많습니다.

결과적으로 같은 종류의 요청에서 GPT-4.1 대비 실제 비용이 2~5배 높게 나오는 구간이 생깁니다. 문제의 복잡도가 올라갈수록 reasoning 토큰은 더 많이 생성되기 때문에, 어려운 문제일수록 격차가 더 커집니다.

▲ 목차로 돌아가기

직접 계산해봤습니다 — 같은 작업, 다른 금액

아래 표는 동일한 프롬프트(입력 4,000토큰 기준)를 GPT-4.1과 o3에 각각 넣었을 때 나오는 이론 비용 계산입니다. reasoning 토큰을 넉넉하게 잡아 2,200토큰으로 설정했습니다.

항목 GPT-4.1 o3
입력 토큰 4,000 4,000
출력(답변) 토큰 800 800
reasoning 토큰 0 약 2,200
실제 청구 출력 토큰 800 3,000
총 비용 (1회 요청) 약 $0.0144 약 $0.0320

계산 기준: 입력 $2/1M + 출력 $8/1M (출처: OpenAI 공식 가격 페이지, openai.com/ko-KR/api/pricing/)

위 예시에서 단가는 동일한데 실제 비용은 2.2배 차이 납니다. 복잡한 수학 증명이나 멀티스텝 코드 디버깅이라면 reasoning 토큰이 5,000개를 넘기도 해서 격차는 더 벌어집니다. 이게 그냥 이론 이야기가 아닌 게, OpenAI 커뮤니티에는 “계산상 $7 나와야 하는데 청구서가 $20이었다”는 실제 사례 스레드가 있고, 원인이 정확히 reasoning 토큰이었습니다. (출처: OpenAI Community, 2025.08.21)

▲ 목차로 돌아가기

o3 대신 o4-mini를 먼저 써야 하는 경우

💡 OpenAI 공식 문서에 나온 포지셔닝과 실제 비용 구조를 같이 보니 이런 흐름이 보였습니다.

OpenAI는 공식적으로 o4-mini를 “대부분의 추론 작업에 더 적합한 기본 모델”로 포지셔닝하고 있습니다. (출처: developers.openai.com/api/docs/pricing) 입력 $1.10, 출력 $4.40 — o3 대비 입출력 모두 45% 저렴합니다. 성능 천장이 필요한 상황에서만 o3로 올리라는 게 OpenAI의 공식 안내 방향입니다.

고객 지원 티켓 분류, 짧은 이메일 요약, 정형 데이터 포맷팅 같은 단일 스텝 작업에 o3를 쓰면 GPT-4.1 mini 대비 3~5배를 더 내면서 결과물 품질 차이는 거의 없습니다. (출처: perunit.ai/blog/openai-o3-api-pricing, 2026.03.13) 추론 단계가 필요 없는 작업에 추론 모델을 쓰는 셈입니다.

실용적인 판단 기준은 이렇습니다. “이 작업에서 중간 단계의 판단이 다음 단계에 영향을 주는가?” — 답이 ‘아니오’라면 o4-mini 또는 GPT-4.1 mini가 더 합리적입니다. 멀티스텝 코드 아키텍처 분석, 수학 증명 검증, 법률 문서 다단계 추론 같은 작업에서 o3의 품질 차이가 실제로 납니다.

▲ 목차로 돌아가기

대시보드 수치를 그대로 믿으면 안 되는 이유

청구서가 예상보다 많이 나왔을 때 OpenAI 대시보드에서 토큰 사용량을 확인해도 정확히 안 나오는 경우가 있습니다. OpenAI Community 스레드에서 실제로 문제를 겪은 사례가 있는데, 대시보드 우측의 토큰 카운트 숫자가 입력 토큰만 표시하고 출력 토큰은 누락된다는 점이 확인됐습니다. (출처: OpenAI Community Forum, 2025.08.21)

reasoning 토큰을 포함한 출력 토큰 전체를 보려면 platform.openai.com/usage/chat-completions에서 날짜 범위를 직접 설정하고, 상단 드롭다운에서 ‘output tokens’를 체크한 뒤 ‘group by model’로 조회해야 합니다. 기본 화면에서 보이는 숫자는 전체 비용과 맞지 않을 수 있습니다.

o3 API를 실제 서비스에 붙일 때는 각 API 호출 응답에서 usage 필드를 직접 파싱해서 reasoning 토큰을 별도로 기록하는 게 훨씬 안전합니다. 대시보드만 믿다가 예산 초과가 나오면 이유를 파악하는 데만 시간이 꽤 걸립니다.

▲ 목차로 돌아가기

o3가 진짜 값어치 하는 작업 vs 낭비가 되는 작업

작업 유형 o3 권장 더 나은 대안
멀티스텝 코드 디버깅·아키텍처 분석
수학 증명·경쟁 프로그래밍
법률·과학 문서 다단계 추론
고객 문의 분류·짧은 이메일 요약 ❌ 과비용 GPT-4.1 mini
정형 데이터 포맷팅·JSON 변환 ❌ 과비용 GPT-4.1 mini
대부분의 추론 작업 (중난이도) △ 검토 필요 o4-mini 먼저

출처: perunit.ai/blog/openai-o3-api-pricing (2026.03.13) / OpenAI 공식 문서

CIO 컬럼 분석에 따르면 o3는 실제로 도구 호출(tool call)을 지나치게 선호하는 경향이 있어, 에이전트 워크플로에서 불필요한 호출이 쌓이면 비용이 예상보다 빠르게 올라갑니다. (출처: cio.com, 2025.06.19) 요청당 도구 호출 횟수를 명시적으로 제한(“최대 8회”)하고 수정 범위를 사전에 좁혀두는 게 실비를 아끼는 현실적인 방법입니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. o3 API 요금이 GPT-4.1이랑 같다고 들었는데 왜 더 많이 나오나요?

표시 단가는 동일합니다($2/$8). 차이는 토큰 수에 있습니다. o3는 답변 전에 reasoning tokens를 내부적으로 생성하고, 이게 전부 출력 토큰으로 청구됩니다. 동일한 요청에서 o3의 청구 출력 토큰은 GPT-4.1 대비 2~5배 많게 나올 수 있습니다.

Q2. reasoning tokens 수를 미리 예측하거나 제한할 수 있나요?

정확한 사전 예측은 어렵습니다. 문제 복잡도에 따라 동적으로 결정됩니다. 다만 API 파라미터에서 max_tokens를 제한하면 reasoning 포함 전체 출력의 상한을 걸 수 있습니다. 단, 이 경우 reasoning 중간에 잘릴 수 있어 불완전한 답변이 나올 수 있습니다.

Q3. o4-mini와 o3, 코딩 작업에선 어느 쪽이 낫나요?

OpenAI 공식 포지셔닝은 o4-mini를 대부분의 추론 작업 기본값으로 안내합니다. 단일 함수 수준의 코드 수정이나 중난이도 로직은 o4-mini로 충분한 경우가 많습니다. 대규모 리포지터리 분석이나 복잡한 아키텍처 결정처럼 여러 제약 조건을 동시에 추적해야 할 때 o3의 차이가 납니다.

Q4. Batch API 할인은 o3에도 적용되나요?

적용됩니다. Batch API를 쓰면 처리 시간이 최대 24시간이지만 요금이 50% 할인됩니다. (출처: OpenAI 공식 문서) 실시간 응답이 필요 없는 배치성 분석 작업이라면 Batch API + o3 조합이 비용 절감에 효과적입니다.

Q5. 캐시 할인은 reasoning tokens에도 붙나요?

캐시 할인은 입력 토큰에만 적용됩니다. 동일한 입력이 재사용될 경우 입력 비용이 절감되지만, reasoning 토큰은 매 요청마다 새로 생성되므로 캐시 할인 대상이 아닙니다. 시스템 프롬프트를 재사용하는 구조라면 입력 쪽에서 캐시 효과를 볼 수 있습니다.

▲ 목차로 돌아가기

마치며

o3 요금 인하는 진짜입니다. 표시 단가 기준으로는 80% 싸진 게 맞습니다. 그런데 reasoning tokens라는 변수가 빠지면 계산이 틀립니다. 단가는 같아도 토큰 수가 달라지기 때문에, 작업 유형에 따라 실비가 예상의 2~5배까지 나올 수 있습니다.

솔직히 말하면, 대부분의 추론 작업은 o4-mini에서 먼저 검증해보는 게 맞습니다. o3는 다단계 복잡 추론이 필요한 작업에서 진가를 발휘하고, 그게 아닌 곳에 쓰면 그냥 비용 낭비입니다. 이 부분이 한국어 블로그에서 잘 다뤄지지 않아서 직접 계산해봤습니다.

본 포스팅 참고 자료

  1. ① OpenAI 공식 API 요금 페이지 — openai.com/ko-KR/api/pricing/
  2. ② OpenAI 개발자 공식 요금 문서 — developers.openai.com/api/docs/pricing
  3. ③ PerUnit — o3 API Pricing: What Reasoning Models Actually Cost (2026.03.13) — perunit.ai/blog/openai-o3-api-pricing
  4. ④ CIO — 오픈AI의 o3 가격 인하, 바이브 코더의 판을 뒤흔들다 (2025.06.19) — cio.com
  5. ⑤ OpenAI Community — Reasoning tokens hidden price question (2025.08.21) — community.openai.com

본 포스팅 작성 이후 OpenAI의 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 본문 내 수치는 2025년 6월 10일 o3 가격 인하 기준이며, 최신 정보는 반드시 OpenAI 공식 문서에서 확인하시기 바랍니다. 본 포스팅은 특정 서비스 가입을 권유하지 않습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기