공식 가격표 직접 확인
GPT-5.4 / Claude 4.6 / Gemini 2.5
LLM API 가격, 싸다고 고르면
이 함정에 빠집니다
입력 토큰 단가만 보고 모델을 골랐다가 실제 청구 금액을 보고 당황한 경험, 한 번쯤 있을 겁니다. LLM API 가격 비교를 제대로 하려면 공식 가격표에 없는 ‘숨겨진 변수’를 먼저 알아야 합니다. 2026년 3월 기준 GPT-5.4, Claude Opus 4.6, Gemini 2.5 Pro 세 플랫폼의 실제 수치를 직접 비교해봤습니다.
2026년 3월 기준
주요 모델 가격 한눈에 보기
OpenAI 공식 가격 페이지, Anthropic 공식 API 페이지, Google AI Dev 공식 가격 페이지 직접 수집 (2026.03.20)
결론부터 말씀드리면, GPT-5.4가 2026년 3월에 전면 출시되면서 OpenAI의 가격 구조가 통째로 바뀌었습니다. 이전 기준으로 비교하던 글들은 이미 낡은 정보입니다. 아래 표는 세 플랫폼 공식 페이지에서 직접 확인한 수치입니다.
| 모델 | 입력 /1M | 출력 /1M | 캐시 입력 | 컨텍스트 |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | $0.25 | 1.05M |
| GPT-5.4 mini | $0.75 | $4.50 | $0.075 | — |
| GPT-5.4 nano | $0.20 | $1.25 | $0.02 | — |
| GPT-5 Mini (구형) | $0.25 | $2.00 | $0.025 | 128K |
(출처: openai.com/api/pricing, 2026.03.20 확인)
| 모델 | 입력 /1M | 출력 /1M | 캐시 읽기 | 컨텍스트 |
|---|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | $0.50 | 200K |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | 200K |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | 200K |
(출처: anthropic.com/api, 2026.03.20 확인)
| 모델 | 입력 /1M | 출력 /1M | 무료 티어 | 컨텍스트 |
|---|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | ❌ | 1M+ |
| Gemini 2.5 Pro | $1.25 | $10.00 | ✅ | 2M |
| Gemini 2.5 Flash | $0.30 | $2.50 | ✅ | 1M |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | ✅ | 1M |
| Gemini 2.0 Flash | $0.10 | $0.40 | ✅ | 1M |
(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.20 확인)
입력 단가만 보면
반드시 손해 보는 이유
가격표에서 가장 눈에 띄는 숫자가 실제 비용과 가장 멀 수 있습니다
LLM API 비교 글에서 가장 흔히 보이는 실수는 입력 토큰 단가를 기준으로 줄 세우는 겁니다. 실제 비용은 다른 곳에서 납니다.
세 플랫폼 모두 출력 토큰이 입력 토큰보다 4~6배 비쌉니다. GPT-5.4 기준 입력 $2.50, 출력 $15.00으로 출력이 6배입니다. (출처: openai.com/api/pricing, 2026.03.20) 대화형 앱에서 입출력 비율이 1:1만 돼도 실효 단가는 공시 입력 단가의 3.5배로 올라갑니다.
출력 토큰 비중이 실제 비용을 결정합니다
챗봇 한 턴을 예로 들면, 시스템 프롬프트 500토큰 + 사용자 입력 300토큰 = 입력 800토큰, 응답 400토큰이라고 가정합니다. 입력 비율이 67%지만, 비용 비율은 Claude Sonnet 4.6 기준으로 계산하면 이렇습니다.
출력 400토큰 × $15.00/1M = $0.0060
합계: $0.0084 → 출력이 전체 비용의 71.4%
출력 400토큰이 입력 800토큰보다 2.5배 더 비쌉니다. 토큰 수는 절반인데 비용이 2.5배. 이 구조를 모르고 “입력 단가 $3.00이니까 Gemini 2.5 Flash($0.30)보다 10배 비싸다”고 계산하면 실제 차이와 완전히 다른 결론이 나옵니다.
장문 컨텍스트엔 할증이 붙습니다
Gemini 2.5 Pro는 200K 토큰을 초과하면 입력 단가가 $1.25에서 $2.50으로 2배가 됩니다. GPT-5.4도 272K 초과 시 $2.50→$5.00으로 올라갑니다. (출처: ai.google.dev/gemini-api/docs/pricing, openai.com/api/pricing, 2026.03.20) RAG 파이프라인이나 긴 문서를 다루는 작업에서는 단가 자체가 달라지는 겁니다.
생각 토큰이 청구서를
최대 10배 불리는 방식
응답 길이를 봐선 절대 알 수 없는 숨겨진 비용
리즈닝 모드를 쓸 때 가장 많이 놓치는 포인트가 바로 이겁니다. Gemini 2.5 Pro와 Claude의 확장 생각(Extended Thinking) 기능은 최종 응답과 별개로 내부 추론 과정을 생성하는데, 이게 전부 출력 토큰 단가로 과금됩니다.
복잡한 코드 리뷰 요청에서 Gemini 2.5 Pro가 내부 추론 3,000토큰 + 실제 응답 500토큰을 생성했다면, 응답 길이로 예상한 비용의 7배가 청구됩니다. Google 공식 가격 페이지에 “Output price (including thinking tokens)”라고 명시돼 있습니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.20)
실제로 얼마나 차이 나는지 직접 계산했습니다
| 시나리오 | 응답 토큰 | 생각 토큰 | 실제 출력 | 출력 비용 |
|---|---|---|---|---|
| 단순 요약 (리즈닝 OFF) | 500 | 0 | 500 | $0.005 |
| 코드 생성 (리즈닝 ON) | 500 | 2,500 | 3,000 | $0.030 |
| 수학 증명 (리즈닝 ON) | 500 | 4,500 | 5,000 | $0.050 |
Gemini 2.5 Pro ($10/1M output 기준) 계산, 1,000 입력 토큰 고정. 리즈닝 ON 시 단순 요약 대비 6~10배 청구.
리즈닝이 필요 없는 작업에 굳이 생각 모드를 켜두는 것만으로 월 비용이 수백 달러 더 나올 수 있습니다. 모델 대시보드에서 실제 토큰 소비량을 항상 응답 길이가 아닌 API 로그로 확인해야 하는 이유가 여기 있습니다.
100만 건 요청 기준
실제 월 비용 계산
같은 입력 조건, 세 플랫폼 flagship 모델로 직접 계산한 수치입니다
LLM API 가격 비교에서 가장 실용적인 질문은 “내 서비스에 매달 얼마 드는가”입니다. 아래는 요청당 750 입력 토큰 + 250 출력 토큰(1:0.33 비율)을 기준으로 한 달 100만 건 기준 비용입니다. aifreeapi.com의 3월 17일 검증 데이터와 공식 가격표를 교차 확인했습니다.
총 출력: 250M 토큰
기준일: 2026.03.20 공식 가격 적용
| 모델 | 입력 비용 | 출력 비용 | 월 합계 |
|---|---|---|---|
| Gemini 2.5 Flash-Lite | $75 | $100 | $175 |
| Gemini 2.5 Flash | $225 | $625 | $850 |
| Gemini 2.5 Pro | $937 | $2,500 | $3,437 |
| GPT-5.4 | $1,875 | $3,750 | $5,625 |
| Claude Sonnet 4.6 | $2,250 | $3,750 | $6,000 |
| Claude Opus 4.6 | $3,750 | $6,250 | $10,000 |
Gemini Flash-Lite와 Claude Opus 4.6의 월 비용 차이가 약 57배입니다. 물론 성능 차이가 있지만, 단순 분류·라우팅 작업에 Opus를 쓸 필요는 없습니다.
Claude Sonnet 4.6은 GPT-5.4보다 입력 단가가 20% 높지만, 출력 단가는 동일($15.00)합니다. 출력 토큰 비중이 높은 애플리케이션(코드 생성, 장문 분석)에서 두 모델의 실제 비용 차이는 입력 단가 차이보다 훨씬 좁아집니다.
캐싱+배치 스택으로
95%까지 절감하는 법
공식 문서와 실제 사용 흐름을 함께 놓고 보면 이런 차이가 보였습니다
이 부분이 기존 비교 글에서 가장 많이 빠져 있는 대목입니다. 각 플랫폼 공식 문서를 보면 캐싱과 배치 API를 조합했을 때 할인율을 명시하고 있는데, 이 두 가지를 동시에 적용하면 체감 단가가 완전히 달라집니다.
Claude: 캐싱 90% + 배치 50% = 최대 95% 절감
Anthropic 공식 API 문서에는 “Save 50% with batch processing”이라고 명시돼 있고, 프롬프트 캐싱 적중 시 입력 토큰 단가가 $5.00→$0.50으로 90% 감소합니다. 두 할인을 스택하면 입력 기준으로는 95% 절감이 됩니다. (출처: anthropic.com/api, 2026.03.20)
입력 1M 토큰 = $5.00
최적화 후 (캐싱 적중 + 배치)
캐시 읽기: $0.50/1M → 배치 50% 추가 할인 = $0.25/1M
절감: 95% (기준가 대비)
플랫폼별 할인 구조 한눈에 비교
| 플랫폼 | 캐시 절감 | 배치 절감 | 스택 가능? | 최대 절감 |
|---|---|---|---|---|
| Anthropic | 90% | 50% | ✅ | ~95% |
| OpenAI | 90% | 50% | ✅ | ~95% |
| 75% | 50% | ✅ | ~87% | |
| DeepSeek | 90% | — | — | 90% |
(출처: anthropic.com/api, openai.com/api/pricing, ai.google.dev/gemini-api/docs/pricing, api-docs.deepseek.com, 2026.03.20)
캐싱이 효과 없는 경우도 있습니다
시스템 프롬프트나 예시가 요청마다 달라지는 구조라면 캐시 적중률이 0%에 가까워집니다. 캐시 쓰기(Cache Write) 비용 자체가 Opus 4.6 기준 $6.25/1M으로 기본 입력($5.00)보다 오히려 비쌉니다. (출처: anthropic.com/api, 2026.03.20) 캐시 쓰기 비용이 먼저 발생하기 때문에 적중률이 최소 2회 이상은 돼야 손익분기를 넘깁니다.
용도별 최적 모델
선택 기준
성능이 아니라 ‘실제 요청 패턴’에 맞는 모델이 가장 저렴합니다
개인적으로 보기에, 비용을 절반 이하로 줄이는 가장 빠른 방법은 모델 변경이 아니라 모델 라우팅입니다. 단순 분류 작업에 Opus를 쓰는 것만 막아도 즉시 효과가 납니다.
상황별 추천 모델
전체 트래픽의 70%를 Flash-Lite($0.10/$0.40), 25%를 Gemini Flash($0.30/$2.50), 5%를 Sonnet($3.00/$15.00)으로 나눴을 때 blended 단가는 약 $0.29/1M이 됩니다. 단일 모델로 Sonnet만 썼을 때($9.00 blended) 대비 96% 절감입니다. (직접 계산 추정치, 실제 트래픽 비율에 따라 달라집니다)
자주 묻는 질문 5가지
Q1. 2026년 3월 기준으로 가장 저렴한 LLM API는 어디인가요?
Q2. Claude가 GPT보다 비싼데 굳이 써야 할 이유가 있나요?
Q3. 생각 토큰(Thinking Tokens)은 어떻게 모니터링하나요?
Q4. GPT-5.4가 나왔는데 GPT-5.2 Pro는 왜 더 비싼가요?
Q5. Gemini가 무료인데 OpenAI나 Claude를 쓸 이유가 있나요?
마치며
2026년 3월 기준 LLM API 가격 비교에서 가장 중요한 포인트는 세 가지입니다. 첫째, 입력 단가보다 출력 단가가 실제 청구의 70% 이상을 결정합니다. 둘째, 리즈닝 모드의 생각 토큰은 응답 길이에 보이지 않지만 출력 단가 기준으로 과금됩니다. 셋째, 캐싱과 배치 API를 스택하면 Claude와 OpenAI 모두 최대 95%까지 절감이 가능합니다.
솔직히 말하면, 모델 선택보다 라우팅 구조 설계가 먼저입니다. 최고 모델 하나로 모든 트래픽을 처리하는 것보다 용도에 맞게 3단계로 나누는 게 현실적으로 비용을 5배 이상 낮춥니다. AI 모델 가격은 워낙 빠르게 바뀌기 때문에 이 글에서 확인한 수치도 분기마다 재검증하는 것이 좋습니다.
본 포스팅 참고 자료
- OpenAI 공식 API 가격 페이지 — openai.com/api/pricing (2026.03.20)
- Anthropic 공식 API 페이지 — anthropic.com/api (2026.03.20)
- Google Gemini API 공식 가격 — ai.google.dev/gemini-api/docs/pricing (2026.03.20)
- TLDL LLM API Pricing March 2026 — tldl.io/resources/llm-api-pricing-2026
- aifreeapi.com 2026 Cost Decision Guide — aifreeapi.com (2026.03.17)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격은 2026년 3월 20일 기준 각 플랫폼 공식 페이지에서 직접 확인한 수치이며, 세금·리전 추가 요금이 포함되지 않은 순수 토큰 단가입니다. 실제 도입 전 각 플랫폼 공식 페이지에서 최신 가격을 반드시 재확인하시기 바랍니다.

댓글 남기기