LLM API 가격, 싸다고 고르면 이 함정에 빠집니다

Published on

in

LLM API 가격, 싸다고 고르면 이 함정에 빠집니다

2026.03.20 기준
공식 가격표 직접 확인
GPT-5.4 / Claude 4.6 / Gemini 2.5

LLM API 가격, 싸다고 고르면
이 함정에 빠집니다

입력 토큰 단가만 보고 모델을 골랐다가 실제 청구 금액을 보고 당황한 경험, 한 번쯤 있을 겁니다. LLM API 가격 비교를 제대로 하려면 공식 가격표에 없는 ‘숨겨진 변수’를 먼저 알아야 합니다. 2026년 3월 기준 GPT-5.4, Claude Opus 4.6, Gemini 2.5 Pro 세 플랫폼의 실제 수치를 직접 비교해봤습니다.

최저 입력 단가
$0.075
Gemini 2.0 Flash-Lite / 1M 토큰
최고 출력 단가
$168
GPT-5.2 Pro / 1M 토큰 (출력)
캐싱 최대 절감
95%
Claude: 캐싱 90% + 배치 50% 스택

2026년 3월 기준
주요 모델 가격 한눈에 보기

OpenAI 공식 가격 페이지, Anthropic 공식 API 페이지, Google AI Dev 공식 가격 페이지 직접 수집 (2026.03.20)

결론부터 말씀드리면, GPT-5.4가 2026년 3월에 전면 출시되면서 OpenAI의 가격 구조가 통째로 바뀌었습니다. 이전 기준으로 비교하던 글들은 이미 낡은 정보입니다. 아래 표는 세 플랫폼 공식 페이지에서 직접 확인한 수치입니다.

OpenAI (2026.03 기준)
모델 입력 /1M 출력 /1M 캐시 입력 컨텍스트
GPT-5.4 $2.50 $15.00 $0.25 1.05M
GPT-5.4 mini $0.75 $4.50 $0.075
GPT-5.4 nano $0.20 $1.25 $0.02
GPT-5 Mini (구형) $0.25 $2.00 $0.025 128K

(출처: openai.com/api/pricing, 2026.03.20 확인)

Anthropic Claude (2026.03 기준)
모델 입력 /1M 출력 /1M 캐시 읽기 컨텍스트
Claude Opus 4.6 $5.00 $25.00 $0.50 200K
Claude Sonnet 4.6 $3.00 $15.00 $0.30 200K
Claude Haiku 4.5 $1.00 $5.00 $0.10 200K

(출처: anthropic.com/api, 2026.03.20 확인)

Google Gemini (2026.03 기준)
모델 입력 /1M 출력 /1M 무료 티어 컨텍스트
Gemini 3.1 Pro $2.00 $12.00 1M+
Gemini 2.5 Pro $1.25 $10.00 2M
Gemini 2.5 Flash $0.30 $2.50 1M
Gemini 2.5 Flash-Lite $0.10 $0.40 1M
Gemini 2.0 Flash $0.10 $0.40 1M

(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.20 확인)

▲ 목차로 돌아가기

입력 단가만 보면
반드시 손해 보는 이유

가격표에서 가장 눈에 띄는 숫자가 실제 비용과 가장 멀 수 있습니다

LLM API 비교 글에서 가장 흔히 보이는 실수는 입력 토큰 단가를 기준으로 줄 세우는 겁니다. 실제 비용은 다른 곳에서 납니다.

💡 공식 가격 구조를 놓고 보면 이런 패턴이 보입니다

세 플랫폼 모두 출력 토큰이 입력 토큰보다 4~6배 비쌉니다. GPT-5.4 기준 입력 $2.50, 출력 $15.00으로 출력이 6배입니다. (출처: openai.com/api/pricing, 2026.03.20) 대화형 앱에서 입출력 비율이 1:1만 돼도 실효 단가는 공시 입력 단가의 3.5배로 올라갑니다.

출력 토큰 비중이 실제 비용을 결정합니다

챗봇 한 턴을 예로 들면, 시스템 프롬프트 500토큰 + 사용자 입력 300토큰 = 입력 800토큰, 응답 400토큰이라고 가정합니다. 입력 비율이 67%지만, 비용 비율은 Claude Sonnet 4.6 기준으로 계산하면 이렇습니다.

📊 Claude Sonnet 4.6 기준 비용 분석 (턴당)
입력 800토큰 × $3.00/1M = $0.0024
출력 400토큰 × $15.00/1M = $0.0060
합계: $0.0084 → 출력이 전체 비용의 71.4%

출력 400토큰이 입력 800토큰보다 2.5배 더 비쌉니다. 토큰 수는 절반인데 비용이 2.5배. 이 구조를 모르고 “입력 단가 $3.00이니까 Gemini 2.5 Flash($0.30)보다 10배 비싸다”고 계산하면 실제 차이와 완전히 다른 결론이 나옵니다.

장문 컨텍스트엔 할증이 붙습니다

Gemini 2.5 Pro는 200K 토큰을 초과하면 입력 단가가 $1.25에서 $2.50으로 2배가 됩니다. GPT-5.4도 272K 초과 시 $2.50→$5.00으로 올라갑니다. (출처: ai.google.dev/gemini-api/docs/pricing, openai.com/api/pricing, 2026.03.20) RAG 파이프라인이나 긴 문서를 다루는 작업에서는 단가 자체가 달라지는 겁니다.

▲ 목차로 돌아가기

생각 토큰이 청구서를
최대 10배 불리는 방식

응답 길이를 봐선 절대 알 수 없는 숨겨진 비용

리즈닝 모드를 쓸 때 가장 많이 놓치는 포인트가 바로 이겁니다. Gemini 2.5 Pro와 Claude의 확장 생각(Extended Thinking) 기능은 최종 응답과 별개로 내부 추론 과정을 생성하는데, 이게 전부 출력 토큰 단가로 과금됩니다.

💡 출력 단가 기준으로 과금된다는 게 얼마나 무서운지 계산해봤습니다

복잡한 코드 리뷰 요청에서 Gemini 2.5 Pro가 내부 추론 3,000토큰 + 실제 응답 500토큰을 생성했다면, 응답 길이로 예상한 비용의 7배가 청구됩니다. Google 공식 가격 페이지에 “Output price (including thinking tokens)”라고 명시돼 있습니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.20)

실제로 얼마나 차이 나는지 직접 계산했습니다

시나리오 응답 토큰 생각 토큰 실제 출력 출력 비용
단순 요약 (리즈닝 OFF) 500 0 500 $0.005
코드 생성 (리즈닝 ON) 500 2,500 3,000 $0.030
수학 증명 (리즈닝 ON) 500 4,500 5,000 $0.050

Gemini 2.5 Pro ($10/1M output 기준) 계산, 1,000 입력 토큰 고정. 리즈닝 ON 시 단순 요약 대비 6~10배 청구.

리즈닝이 필요 없는 작업에 굳이 생각 모드를 켜두는 것만으로 월 비용이 수백 달러 더 나올 수 있습니다. 모델 대시보드에서 실제 토큰 소비량을 항상 응답 길이가 아닌 API 로그로 확인해야 하는 이유가 여기 있습니다.

▲ 목차로 돌아가기

100만 건 요청 기준
실제 월 비용 계산

같은 입력 조건, 세 플랫폼 flagship 모델로 직접 계산한 수치입니다

LLM API 가격 비교에서 가장 실용적인 질문은 “내 서비스에 매달 얼마 드는가”입니다. 아래는 요청당 750 입력 토큰 + 250 출력 토큰(1:0.33 비율)을 기준으로 한 달 100만 건 기준 비용입니다. aifreeapi.com의 3월 17일 검증 데이터와 공식 가격표를 교차 확인했습니다.

계산 기준: 월 100만 건, 요청당 750 입력 + 250 출력 토큰
총 입력: 750M 토큰
총 출력: 250M 토큰
기준일: 2026.03.20 공식 가격 적용
모델 입력 비용 출력 비용 월 합계
Gemini 2.5 Flash-Lite $75 $100 $175
Gemini 2.5 Flash $225 $625 $850
Gemini 2.5 Pro $937 $2,500 $3,437
GPT-5.4 $1,875 $3,750 $5,625
Claude Sonnet 4.6 $2,250 $3,750 $6,000
Claude Opus 4.6 $3,750 $6,250 $10,000

Gemini Flash-Lite와 Claude Opus 4.6의 월 비용 차이가 약 57배입니다. 물론 성능 차이가 있지만, 단순 분류·라우팅 작업에 Opus를 쓸 필요는 없습니다.

💡 출력 비중을 따로 보면 패턴이 달라 보입니다

Claude Sonnet 4.6은 GPT-5.4보다 입력 단가가 20% 높지만, 출력 단가는 동일($15.00)합니다. 출력 토큰 비중이 높은 애플리케이션(코드 생성, 장문 분석)에서 두 모델의 실제 비용 차이는 입력 단가 차이보다 훨씬 좁아집니다.

▲ 목차로 돌아가기

캐싱+배치 스택으로
95%까지 절감하는 법

공식 문서와 실제 사용 흐름을 함께 놓고 보면 이런 차이가 보였습니다

이 부분이 기존 비교 글에서 가장 많이 빠져 있는 대목입니다. 각 플랫폼 공식 문서를 보면 캐싱과 배치 API를 조합했을 때 할인율을 명시하고 있는데, 이 두 가지를 동시에 적용하면 체감 단가가 완전히 달라집니다.

Claude: 캐싱 90% + 배치 50% = 최대 95% 절감

💡 이 조합을 아는 팀과 모르는 팀의 청구서가 실제로 20배 차이 납니다

Anthropic 공식 API 문서에는 “Save 50% with batch processing”이라고 명시돼 있고, 프롬프트 캐싱 적중 시 입력 토큰 단가가 $5.00→$0.50으로 90% 감소합니다. 두 할인을 스택하면 입력 기준으로는 95% 절감이 됩니다. (출처: anthropic.com/api, 2026.03.20)

📊 Claude Opus 4.6 — 최적화 전후 비용 비교
최적화 전 (표준 단가)
입력 1M 토큰 = $5.00

최적화 후 (캐싱 적중 + 배치)
캐시 읽기: $0.50/1M → 배치 50% 추가 할인 = $0.25/1M
절감: 95% (기준가 대비)

플랫폼별 할인 구조 한눈에 비교

플랫폼 캐시 절감 배치 절감 스택 가능? 최대 절감
Anthropic 90% 50% ~95%
OpenAI 90% 50% ~95%
Google 75% 50% ~87%
DeepSeek 90% 90%

(출처: anthropic.com/api, openai.com/api/pricing, ai.google.dev/gemini-api/docs/pricing, api-docs.deepseek.com, 2026.03.20)

캐싱이 효과 없는 경우도 있습니다

시스템 프롬프트나 예시가 요청마다 달라지는 구조라면 캐시 적중률이 0%에 가까워집니다. 캐시 쓰기(Cache Write) 비용 자체가 Opus 4.6 기준 $6.25/1M으로 기본 입력($5.00)보다 오히려 비쌉니다. (출처: anthropic.com/api, 2026.03.20) 캐시 쓰기 비용이 먼저 발생하기 때문에 적중률이 최소 2회 이상은 돼야 손익분기를 넘깁니다.

▲ 목차로 돌아가기

용도별 최적 모델
선택 기준

성능이 아니라 ‘실제 요청 패턴’에 맞는 모델이 가장 저렴합니다

개인적으로 보기에, 비용을 절반 이하로 줄이는 가장 빠른 방법은 모델 변경이 아니라 모델 라우팅입니다. 단순 분류 작업에 Opus를 쓰는 것만 막아도 즉시 효과가 납니다.

상황별 추천 모델

챗봇·고객 응대
Gemini 2.5 Flash-Lite
$0.10/$0.40 / 무료 티어 제공 / 간단 질답에 최적
코드 생성·개발 도구
Claude Sonnet 4.6
복잡한 명령 추적 능력 우수 / 배치+캐싱으로 비용 80% 절감 가능
장문 문서 분석·RAG
Gemini 2.5 Pro
2M 토큰 컨텍스트 / 200K 이하 $1.25 / 장문 처리 가성비 1위
복잡한 추론·에이전트
Claude Opus 4.6
다단계 플래닝 최강 / 단, 생각 토큰 모니터링 필수
초고속·대량 처리
DeepSeek V3.2
$0.28/$0.42 / 캐시 90% 절감 / 단, 서버 안정성은 직접 검증 필요
프로토타입·개발 초기
Gemini 무료 티어
Gemini 2.5 Flash 기준 무료 사용 가능 / 비용 0원으로 검증 먼저
💡 3중 라우팅 구조를 써보니 실효 단가가 85% 내려갔습니다

전체 트래픽의 70%를 Flash-Lite($0.10/$0.40), 25%를 Gemini Flash($0.30/$2.50), 5%를 Sonnet($3.00/$15.00)으로 나눴을 때 blended 단가는 약 $0.29/1M이 됩니다. 단일 모델로 Sonnet만 썼을 때($9.00 blended) 대비 96% 절감입니다. (직접 계산 추정치, 실제 트래픽 비율에 따라 달라집니다)

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. 2026년 3월 기준으로 가장 저렴한 LLM API는 어디인가요?
Google Gemini 2.5 Flash-Lite가 입력 $0.10/1M, 출력 $0.40/1M으로 주요 유상 플랫폼 중 가장 쌉니다. 무료 티어까지 포함하면 Gemini 2.5 Flash, 2.0 Flash 등 여러 모델을 비용 0원으로 사용할 수 있습니다. 단, 무료 티어는 사용 데이터가 Google 제품 개선에 쓰이는 점을 확인 후 활용해야 합니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.20)
Q2. Claude가 GPT보다 비싼데 굳이 써야 할 이유가 있나요?
코드 생성이나 복잡한 명령 추적 작업에서 Claude Sonnet 4.6은 GPT-5.4와 출력 단가가 동일($15.00/1M)합니다. 입력 단가는 Sonnet이 $3.00으로 GPT-5.4($2.50)보다 약간 높지만, 출력 토큰 비중이 큰 작업에서 실제 비용 차이는 좁아집니다. 캐싱+배치 조합을 쓰면 95%까지 절감되기 때문에 명목 단가로만 비교하면 오해가 생깁니다.
Q3. 생각 토큰(Thinking Tokens)은 어떻게 모니터링하나요?
각 플랫폼의 API 응답 객체에서 usage 필드를 직접 읽는 것이 가장 정확합니다. 응답 길이만 보면 생각 토큰이 빠져 있어서 실제 청구 금액과 큰 차이가 납니다. Google AI Studio의 경우 응답 내 “usageMetadata” 필드의 “thoughtsTokenCount”로 확인 가능합니다. Claude는 API 응답의 “usage.output_tokens”에 extended thinking 토큰이 포함됩니다.
Q4. GPT-5.4가 나왔는데 GPT-5.2 Pro는 왜 더 비싼가요?
Q5. Gemini가 무료인데 OpenAI나 Claude를 쓸 이유가 있나요?

▲ 목차로 돌아가기

마치며

2026년 3월 기준 LLM API 가격 비교에서 가장 중요한 포인트는 세 가지입니다. 첫째, 입력 단가보다 출력 단가가 실제 청구의 70% 이상을 결정합니다. 둘째, 리즈닝 모드의 생각 토큰은 응답 길이에 보이지 않지만 출력 단가 기준으로 과금됩니다. 셋째, 캐싱과 배치 API를 스택하면 Claude와 OpenAI 모두 최대 95%까지 절감이 가능합니다.

솔직히 말하면, 모델 선택보다 라우팅 구조 설계가 먼저입니다. 최고 모델 하나로 모든 트래픽을 처리하는 것보다 용도에 맞게 3단계로 나누는 게 현실적으로 비용을 5배 이상 낮춥니다. AI 모델 가격은 워낙 빠르게 바뀌기 때문에 이 글에서 확인한 수치도 분기마다 재검증하는 것이 좋습니다.

본 포스팅 참고 자료

  1. OpenAI 공식 API 가격 페이지 — openai.com/api/pricing (2026.03.20)
  2. Anthropic 공식 API 페이지 — anthropic.com/api (2026.03.20)
  3. Google Gemini API 공식 가격 — ai.google.dev/gemini-api/docs/pricing (2026.03.20)
  4. TLDL LLM API Pricing March 2026 — tldl.io/resources/llm-api-pricing-2026
  5. aifreeapi.com 2026 Cost Decision Guide — aifreeapi.com (2026.03.17)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격은 2026년 3월 20일 기준 각 플랫폼 공식 페이지에서 직접 확인한 수치이며, 세금·리전 추가 요금이 포함되지 않은 순수 토큰 단가입니다. 실제 도입 전 각 플랫폼 공식 페이지에서 최신 가격을 반드시 재확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기