공식 문서 직접 확인
D-5 / 3월 31일 변경
OpenAI API 요금, 3월 31일부터 달라집니다
컨테이너 요금 구조가 바뀌고, 웹서치 비용은 모델마다 최대 60% 차이 납니다. 공식 가격 페이지에서 직접 확인한 내용만 정리했습니다.
3월 31일, 실제로 뭐가 바뀌나요
OpenAI API 요금 페이지(openai.com/api/pricing)를 직접 열어보면 컨테이너(Containers) 섹션에 딱 이렇게 나와 있습니다.
📌 공식 고지 원문 (openai.com/api/pricing, 2026.03.26 기준)
현재 (Now): 1 GB $0.03 / 64GB $1.92 per container
2026년 3월 31일부터 (Starting March 31, 2026): 1 GB $0.03 / 64GB $1.92 per 20-minute session per container
핵심만 짚으면, 기존에는 컨테이너 하나를 띄우면 시간과 무관하게 고정 비용($0.03)이었습니다. 그런데 3월 31일부터는 컨테이너를 띄운 상태로 20분이 지나면 또 $0.03이 붙는 구조로 바뀝니다. 에이전트가 코드 인터프리터나 셸 도구를 오래 돌리는 워크플로우라면 비용이 체감상 여러 배 올라갈 수 있습니다.
실제 비용 차이를 계산해보면
1GB 컨테이너 기준으로 에이전트 작업이 60분 걸린다고 가정합니다. 현재 방식이라면 $0.03 고정이지만, 3월 31일 이후에는 20분당 $0.03이니 3세션 = $0.09가 됩니다. 3배입니다. 64GB 컨테이너로 1시간짜리 데이터 처리 파이프라인을 돌리면 현재 $1.92에서 $5.76으로 뜁니다. 숫자는 단순하지만 파이프라인을 하루 수십 번 반복하는 팀이라면 월 청구서가 눈에 띄게 달라집니다.
⚠️ 주의: 컨테이너 요금 변경은 Hosted Shell과 Code Interpreter 모두 해당됩니다. (출처: OpenAI 공식 개발자 문서, developers.openai.com/api/docs/pricing, 2026.03.26)
GPT-5.4 등장 — 2026년 3월 현재 전체 요금표
2026년 3월 5일, OpenAI가 GPT-5.4를 출시했습니다. 이 시점부터 라인업이 꽤 복잡해졌습니다. 공식 개발자 문서(developers.openai.com/api/docs/pricing)와 가격 페이지를 교차 확인해서 정리한 표입니다. 짧은 컨텍스트(272K 이하) 기준입니다.
플래그십 모델
| 모델 | 입력 /1M | 캐시 입력 | 출력 /1M | 컨텍스트 |
|---|---|---|---|---|
| GPT-5.4 NEW | $2.50 | $0.25 | $15.00 | 1.05M |
| GPT-5.4 Pro | $30.00 | — | $180.00 | 1.05M |
| GPT-5.4 mini | $0.75 | $0.075 | $4.50 | — |
| GPT-5.4 nano | $0.20 | $0.02 | $1.25 | — |
| GPT-5 | $1.25 | $0.125 | $10.00 | 400K |
중간·경량 모델
| 모델 | 입력 /1M | 캐시 입력 | 출력 /1M | 컨텍스트 |
|---|---|---|---|---|
| GPT-4.1 | $2.00 | $0.50 | $8.00 | 1M |
| GPT-4o | $2.50 | $1.25 | $10.00 | 128K |
| GPT-4.1 Nano | $0.10 | $0.025 | $0.40 | 1M |
| GPT-5 Mini | $0.25 | $0.025 | $2.00 | 128K |
💡 공식 발표문과 실제 요금표를 같이 놓고 보니 이런 패턴이 보였습니다. GPT-5.4는 GPT-5 대비 입력 2배, 출력 50% 비싸지만, 컨텍스트 창이 1.05M으로 GPT-5(400K)보다 2.6배 넓습니다. 대용량 문서 분석이 아니라면 GPT-5가 사실상 가성비 최상입니다.
한 가지 놓치기 쉬운 조건이 있습니다. GPT-5.4와 GPT-5.2는 입력 토큰이 272K를 넘으면 전체 세션에 대해 입력 2배, 출력 1.5배 요금이 붙습니다. 공식 문서에 “Prompts exceeding 272K input tokens are billed at 2x input and 1.5x output for the entire session”이라고 나와 있습니다(출처: developers.openai.com/api/docs/pricing, 2026.03.26). 긴 문서를 한번에 밀어 넣는 방식으로 쓴다면 예상보다 훨씬 많이 나올 수 있습니다.
웹서치 요금, 모델 선택이 비용을 가릅니다
웹서치 도구 요금을 그냥 “건당 얼마”로만 알고 있다면, 한 가지 구조를 놓친 겁니다. OpenAI는 어떤 모델과 웹서치를 조합하느냐에 따라 1,000건당 요금이 완전히 달라집니다.
| 모델 계열 | 웹서치 1k건당 요금 | 비고 |
|---|---|---|
| gpt-4o, gpt-4.1 계열 | $25.00 | 검색 콘텐츠 토큰 별도 청구 |
| gpt-5 및 이후 추론 모델 | $10.00 | 검색 콘텐츠 토큰 무료 |
표면적으로는 $25 대 $10이니 60% 차이입니다. 그런데 여기서 끝이 아닙니다. gpt-4o/4.1 계열은 검색으로 가져온 콘텐츠 토큰도 별도로 청구됩니다. 반면 gpt-5 이상 추론 모델은 검색 콘텐츠 토큰이 무료입니다. 실제 웹서치 콘텐츠를 컨텍스트에 넣으면 응답당 수천 토큰이 추가될 수 있는데, 그 부분까지 빠지는 겁니다. 실질 비용 차이는 단순 비율보다 더 큽니다.
💡 공식 문서에 나온 두 구조를 실제 흐름으로 비교해보니
GPT-4o + 웹서치 1,000건: $25(호출) + 검색 콘텐츠 토큰 비용(응답당 약 3,000토큰 × $2.50/1M × 1,000건 = 약 $7.5) → 합산 약 $32.5
GPT-5 + 웹서치 1,000건: $10(호출) + 검색 콘텐츠 토큰 무료 → $10
웹서치 도구를 많이 쓰는 에이전트라면 같은 작업량에서 약 3배 이상 차이가 날 수 있습니다.
다만 GPT-4o/4.1 계열에도 예외가 하나 있습니다. gpt-4o-mini나 gpt-4.1-mini에서 프리뷰가 아닌 정식 웹서치 툴을 쓰면 검색 콘텐츠 토큰이 고정 8,000 입력 토큰 블록으로 청구됩니다. 호출마다 8,000토큰을 쓴 것으로 간주해 과금하는 구조입니다(출처: developers.openai.com/api/docs/pricing, 2026.03.26). 짧은 검색 결과만 가져온다면 실제보다 비용이 더 잡힐 수 있습니다.
할인 구조를 제대로 쓰면 표준가 대비 95%도 줄어듭니다
OpenAI API에는 세 가지 할인 메커니즘이 있습니다. 따로 써도 효과가 있지만, 조합하면 숫자가 극단적으로 달라집니다. 공식 문서(developers.openai.com/api/docs/pricing, 2026.03.26) 기반으로 정리했습니다.
① 프롬프트 캐싱 — 자동으로 적용됩니다
같은 프롬프트 앞부분을 반복 전송하면 OpenAI가 자동으로 캐싱해 할인 요금을 적용합니다. 별도 설정 없이 작동합니다. 할인율은 모델 계열마다 다릅니다.
| 모델 계열 | 캐시 할인율 | 캐시 적용 시 입력가(GPT-5 기준) |
|---|---|---|
| GPT-5 계열 | 90% 할인 | $0.125/1M |
| GPT-4.1 계열 | 75% 할인 | $0.50/1M |
| GPT-4o 계열 | 50% 할인 | $1.25/1M |
여기서 반직관적인 지점이 하나 있습니다. GPT-5 캐시 적용 후 입력 요금은 $0.125/1M입니다. GPT-4.1 Nano 표준가가 $0.10/1M이니, 캐시를 제대로 쓰면 GPT-5가 GPT-4.1 Nano와 거의 같은 가격대가 됩니다. “좋은 모델은 무조건 비싸다”는 직관이 여기서 깨집니다.
② Batch API — 50% 고정 할인
비동기 처리가 가능한 작업이라면 Batch API를 쓰면 입출력 모두 50% 할인이 적용됩니다. 24시간 내 결과를 받는 조건이지만, 야간 콘텐츠 생성·대량 데이터 분류·리포트 자동화 등에는 충분합니다.
③ 두 가지 동시 적용 — 최대 95% 절감
Batch API(50% 할인) + 프롬프트 캐싱(90% 할인)을 동시에 쓰면 캐시 입력 기준 GPT-5는 $0.0625/1M까지 내려갑니다. 표준가($1.25)의 5% 수준입니다. 공식 문서 수치를 역산하면 GPT-4.1도 캐시 + Batch 기준으로 $0.25/1M이 됩니다(출처: developers.openai.com/api/docs/pricing). 이 계산이 맞는지 직접 확인하고 싶다면 GPT-5 표준가 $1.25에 Batch 50% → $0.625, 여기에 캐시 90% 할인 → $0.0625를 손으로 계산해볼 수 있습니다.
💡 비용 구조를 실제 운영 흐름과 겹쳐보니
캐시가 잘 먹히는 구조(시스템 프롬프트 고정 + 사용자 입력만 변동)라면 GPT-4.1 Nano보다 GPT-5 쪽이 실질 비용이 낮아질 수 있습니다. 모델 선택 기준을 “표준가”가 아닌 “실효 단가”로 바꿔야 하는 이유입니다.
왜 요금이 앞으로 더 오를 수밖에 없는지
3월 한 달에만 PricePerToken.com이 추적하는 483개 모델 중 114개의 요금이 바뀌었습니다. 전체의 24%입니다(출처: costlayer.ai/blog, 2026.03.20 기준). 단순한 가격 조정 수준이 아니라 업계 전반의 구조 재편 신호입니다.
OpenAI ChatGPT 담당 임원이 현재 요금 모델을 “accidental(우발적)”이라고 표현하며 “크게 바뀔 것”이라고 예고했습니다(출처: costlayer.ai/blog, 2026.03.20). 이 발언이 나온 배경은 OpenAI의 재무 구조입니다. OpenAI의 2026년 예상 손실은 140억 달러로, 2025년(80~90억 달러)보다 더 커집니다. 매출은 늘어나고 있지만 인프라 비용이 더 빠르게 증가하는 구조입니다.
여기에 IPO 변수가 더해집니다. OpenAI와 Anthropic 모두 기업공개를 준비 중인 것으로 알려져 있습니다. 공개 시장에서는 “지속 가능한 단위 경제”를 요구하기 때문에, 지금처럼 사용자 확보를 위해 보조된 가격을 유지하기 어려워집니다. 웹 코드에서 발견된 $100짜리 “Pro Lite” 티어가 이 흐름의 방향을 보여줍니다(출처: costlayer.ai/blog).
💡 두 가지 수치를 나란히 보면 보이는 것
Anthropic은 2024년 마진이 -94%였는데 2025년에 +40%로 급반전했습니다. 이 폭의 개선은 비용 절감만으로는 설명되지 않습니다. 가격 정책도 같이 조였다는 뜻입니다. OpenAI도 같은 방향으로 움직일 가능성이 높고, 그 과정에서 현재 API 요금이 기준점이 됩니다. 지금 요금이 저렴하다면 그 이유가 지속 가능한 구조에서 나온 게 아닐 수 있습니다.
실제 사용 시나리오별 월 비용 계산
공식 문서 수치 기반으로 세 가지 실사용 시나리오를 계산했습니다. 할인을 전혀 쓰지 않을 때와 Batch+캐시를 모두 쓸 때를 나란히 놓았습니다(출처: developers.openai.com/api/docs/pricing, 2026.03.26).
시나리오 1 — 고객 지원 챗봇 (하루 10,000건 대화)
대화당 평균 800 입력 토큰 + 400 출력 토큰 가정
| 조합 | 월 비용 |
|---|---|
| GPT-5 표준 | 약 $270 |
| GPT-5 Mini 표준 | 약 $54 |
| GPT-5 Mini + 캐싱 | 약 $27 |
GPT-5를 그냥 쓰는 것 대비 Mini + 캐싱 조합은 10분의 1 비용입니다.
시나리오 2 — RAG 파이프라인 (월 100만 쿼리)
쿼리당 2,000 입력 + 500 출력 토큰 (검색 컨텍스트 포함)
| 조합 | 월 비용 |
|---|---|
| GPT-4.1 표준 | 약 $8,000 |
| GPT-4.1 + 캐싱 | 약 $5,000 |
| GPT-4.1 + 캐싱 + Batch | 약 $2,500 |
할인을 아무것도 안 쓸 때보다 조합을 다 쓰면 같은 작업량이 3분의 1 가격입니다.
시나리오 3 — 3월 31일 이후 컨테이너 비용 변화
64GB 컨테이너, 하루 10회 1시간짜리 파이프라인 실행 가정
| 시점 | 1회 비용 | 월 비용(10회×30일) |
|---|---|---|
| 현재 (컨테이너 기준) | $1.92 | $576 |
| 3월 31일 이후 (20분 세션 기준) | $5.76 (3세션) | $1,728 |
작업 시간을 20분 단위로 쪼개거나, 처리 효율을 높여 실행 시간 자체를 줄이는 쪽이 비용 대응 방법이 됩니다.
Q&A
마치며
3월 31일 컨테이너 요금 변경은 딱 5일 남았습니다. 장시간 에이전트 파이프라인을 돌리는 구조라면 지금 실행 시간 최적화를 검토할 타이밍입니다. 20분 안에 끝낼 수 있는 작업이라면 문제없지만, 그 이상 걸리는 작업은 청구 구조가 달라집니다.
웹서치 요금의 60% 차이는 솔직히 생각보다 덜 알려진 부분입니다. 에이전트 서비스에서 웹서치 호출이 많다면, GPT-4o 계열에서 GPT-5 계열로 모델을 전환하는 것만으로도 웹서치 비용을 대폭 줄일 수 있습니다. 모델을 업그레이드했는데 오히려 비용이 내려가는 상황이 실제로 가능합니다.
요금 체계는 앞으로도 계속 바뀔 가능성이 높습니다. OpenAI가 스스로 현재 요금을 “accidental”이라고 인정한 만큼, 지금 요금표가 영구적이라고 보기 어렵습니다. 프롬프트 캐싱과 Batch API 조합을 지금 익혀두면, 다음 요금 인상 때 완충 효과를 볼 수 있습니다.
지금 당장 확인할 3가지:
1. 컨테이너 작업 평균 실행 시간 확인 → 20분 초과 여부 점검
2. 웹서치 사용 모델 확인 → GPT-4o/4.1 계열이면 전환 검토
3. 시스템 프롬프트 구조 확인 → 앞부분 고정 여부로 캐싱 효율 판단
본 포스팅 참고 자료
- OpenAI 공식 API 가격 페이지 — openai.com/api/pricing/
- OpenAI 공식 개발자 문서 (Pricing) — developers.openai.com/api/docs/pricing/
- OpenAI 공식 블로그 (One Year of Responses API) — developers.openai.com/blog/one-year-of-responses/
- CostLayer — AI API Price Hikes: 114 Models Changed This Month — costlayer.ai
본 포스팅은 2026년 3월 26일 기준 OpenAI 공식 문서를 바탕으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 요금은 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다.











댓글 남기기