Grok 4.1 Fast 기준
xAI 공식 문서 검증
Grok 4 API 가격, $3라고 다 같은 값이 아닙니다
결론부터 말씀드리면, 같은 Grok 4 패밀리인데 모델 선택 하나로 비용이 최대 98% 달라집니다. 그리고 “2M 토큰 컨텍스트”라는 광고 문구에는 꽤 중요한 조건 하나가 숨어 있습니다.
Grok 4 패밀리, 모델이 4개나 됩니다
xAI의 현행 라인업을 먼저 정리해야 가격 비교가 제대로 됩니다. “Grok 4 API 쓴다”고 했을 때 사실 그 안에 4가지 선택지가 존재합니다.
| 모델 | 입력 /1M | 출력 /1M | 컨텍스트 | 추론 모드 |
|---|---|---|---|---|
| Grok 4 | $3.00 | $15.00 | 256K | 항상 ON |
| Grok 4.1 Fast | $0.20 | $0.50 | 2M | 선택 가능 |
| Grok 3 (레거시) | $3.00 | $15.00 | 131K | 없음 |
| Grok 3 Mini (레거시) | $0.30 | $0.50 | 131K | 추론 전용 |
Grok 3 계열은 xAI가 공식적으로 “레거시 모델”로 분류했습니다. 신규 프로젝트라면 Grok 4 패밀리가 기본 선택지입니다. 그리고 지금부터가 진짜 핵심입니다.
Grok 4 Fast가 Grok 4보다 98% 저렴한 이유
💡 공식 발표문과 벤치마크 수치를 같이 놓고 보니 이런 그림이 됩니다 — 입력 토큰 기준 15배 저렴한데 벤치마크 점수 차이는 5% 이내입니다.
xAI가 Grok 4 Fast 출시 발표문에서 직접 밝힌 수치가 있습니다. “Grok 4 Fast는 평균 40% 더 적은 추론 토큰을 사용하면서 Grok 4와 동급의 벤치마크 성능을 냅니다. 결과적으로 같은 성능 기준 가격이 98% 낮아졌습니다.” (출처: xAI 공식 블로그, 2025.09.19)
벤치마크 수치를 직접 보면 이렇습니다.
| 벤치마크 | Grok 4 Fast | Grok 4 | GPT-5 Mini |
|---|---|---|---|
| GPQA Diamond | 85.7% | 87.5% | 82.3% |
| AIME 2025 | 92.0% | 91.7% | 91.1% |
| HMMT 2025 | 93.3% | 90.0% | 87.8% |
| LiveCodeBench | 80.0% | 79.0% | 77.4% |
출처: xAI Grok 4 Fast 공식 발표 (2025.09.19)
수치가 보여주는 건 간단합니다 — 대부분의 벤치마크에서 Grok 4 Fast가 Grok 4를 이기거나 동률입니다. 일반적인 프로덕션 환경이라면 처음부터 Grok 4를 선택할 이유가 거의 없습니다.
128k를 넘으면 요금이 즉시 2배가 됩니다
⚠️ “2M 토큰 컨텍스트 지원”을 보고 긴 문서를 통째로 넣으면, 128k를 넘는 순간 입력 토큰 단가가 $0.20 → $0.40으로 올라갑니다. 출력도 $0.50 → $1.00으로 동시에 올라갑니다.
xAI 공식 발표문에 이 조건이 명시돼 있습니다. Grok 4 Fast의 토큰 단가는 128k 토큰을 기준으로 두 구간으로 나뉩니다. (출처: xAI Grok 4 Fast 공식 발표, 2025.09.19)
| 토큰 유형 | 128k 이하 | 128k 초과 | 인상률 |
|---|---|---|---|
| 입력 토큰 | $0.20 /1M | $0.40 /1M | +100% |
| 출력 토큰 | $0.50 /1M | $1.00 /1M | +100% |
| 캐시 입력 | $0.05 /1M | 별도 공지 없음 | — |
128k 토큰이 어느 정도 분량인지 감이 안 오실 수 있는데, 한국어 기준 약 8~10만 자 분량입니다. 소설 한 편이나 긴 PDF 보고서를 통째로 넣으면 충분히 넘어갑니다.
💡 RAG(검색 기반 생성)나 청크 분할 방식으로 컨텍스트를 128k 이하로 유지하면 요금 인상 구간을 회피할 수 있습니다. “2M 컨텍스트”는 기술적 한계를 늘린 것이지, 저렴하게 쓸 수 있는 상한이 아닙니다.
이 구조를 모르면 긴 문서 분석 작업에서 예산이 예측치의 2배로 나올 수 있습니다.
경쟁 모델과 직접 비교해봤습니다
가격표만 보면 Grok 4.1 Fast가 압도적으로 저렴해 보입니다. 근데 이게 정말 ‘저렴한 것’인지, 아니면 성능을 버리고 값을 낮춘 건지 확인이 필요합니다. 아래는 2026년 2월 기준 공개된 주요 모델 가격입니다. (출처: Mem0 공식 블로그, 2026.03.05)
| 모델 | 입력 /1M | 출력 /1M | 컨텍스트 |
|---|---|---|---|
| Grok 4.1 Fast | $0.20 | $0.50 | 2M |
| OpenAI GPT-5 mini | $0.25 | $2.00 | 400K |
| Google Gemini 3 Flash | $0.50 | $3.00 | 1M |
| OpenAI GPT-4.1 | $2.00 | $8.00 | 1M |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K |
| Claude Opus 4.6 | $5.00 | $25.00 | 200K |
출력 토큰 기준으로 보면 차이가 더 극명합니다. Grok 4.1 Fast의 $0.50/1M은 GPT-5 mini($2.00)의 4분의 1 수준입니다. 출력량이 많은 에이전트 워크플로우라면 이 격차가 그대로 비용 차이로 직결됩니다.
다만 Grok 4.1 Fast가 LiveCodeBench 코딩 벤치마크에서 40.1점(Thinking 모드에서 83.2점)을 기록한 반면, GPT-5 mini는 같은 벤치마크에서 77.4점입니다. (출처: Artificial Analysis, 2026.03.28) 코딩 태스크에서는 Thinking 모드 활성화가 사실상 필수입니다.
Grok 4를 쓰면 안 되는 상황이 있습니다
💡 Grok 4의 공식 문서와 실제 API 동작 방식을 교차해 보니 이런 제약이 눈에 들어왔습니다 — 추론이 항상 켜져 있다는 말은, 간단한 질문에도 추론 토큰 비용이 강제로 청구된다는 의미입니다.
Grok 4는 ‘추론 항상 ON’ 구조입니다. xAI 공식 문서에 이렇게 나옵니다. “Grok 4에는 reasoning_effort 파라미터가 없습니다. reasoning_effort 값을 요청에 포함하면 에러가 반환됩니다.” (출처: xAI 공식 모델 문서)
이게 의미하는 바는 간단합니다. “오늘 날씨 어때?” 수준의 질문에도, 복잡한 코드 디버깅과 동일한 추론 비용 구조가 적용됩니다. 추론 강도를 낮추거나 끌 수 없습니다.
반면 Grok 4.1 Fast는 추론 모드와 비추론 모드를 같은 모델 가중치로 지원합니다. API 요청 시 system prompt로 모드를 전환할 수 있어, 태스크 복잡도에 맞게 비용을 조절할 수 있습니다. (출처: xAI Grok 4 Fast 공식 발표, 2025.09.19)
Grok 4가 유리한 경우: 다단계 추론이 핵심인 리서치, 복잡한 수학 증명, 높은 정확도가 필요한 코드 생성처럼 추론 깊이가 결과 품질을 직접 결정할 때. 그 외 대부분의 경우: Grok 4.1 Fast가 비용 효율적입니다.
실제로 비용이 얼마나 나올까, 계산해봤습니다
월 10만 건의 API 호출, 요청당 평균 입력 500토큰, 출력 300토큰이라고 가정하면 어떻게 될까요?
📐 계산 조건: 월 100,000회, 입력 500토큰/회, 출력 300토큰/회
• 총 입력 토큰 = 100,000 × 500 = 50,000,000 (50M)
• 총 출력 토큰 = 100,000 × 300 = 30,000,000 (30M)
Grok 4.1 Fast:
입력: 50M × $0.20 = $10.00
출력: 30M × $0.50 = $15.00
→ 월 합계: $25.00 (약 3만 7천 원)
Grok 4:
입력: 50M × $3.00 = $150.00
출력: 30M × $15.00 = $450.00
→ 월 합계: $600.00 (약 87만 원)
동일한 호출량에서 Grok 4를 선택하면 24배 비용이 나옵니다. 성능 차이가 1~2%포인트 수준인 걸 감안하면, 대부분의 프로덕션 환경에서 Grok 4는 선택지가 되기 어렵습니다.
추가로 xAI는 배치 API를 통해 비실시간 워크플로우에 50% 할인을 제공합니다. 위 계산에서 Grok 4.1 Fast 배치 기준으로는 월 $12.50까지 낮아집니다. (출처: xAI 공식 Batch API 문서)
단, 서버 사이드 툴을 함께 쓴다면 이야기가 달라집니다. 웹 검색 툴은 호출 1,000회당 $5입니다. 쿼리 1건당 웹 검색 3~5회가 자동 발생하면, 10만 건 기준 추가 비용이 $1,500~$2,500까지 붙을 수 있습니다. 툴 호출 수를 제어하는 프롬프트 설계가 토큰 비용만큼 중요합니다.
자주 묻는 것들
마치며
솔직히 말하면, Grok API 가격 구조에서 가장 중요한 두 가지 사실이 한국어 자료에는 잘 안 나옵니다. 하나는 Grok 4 Fast가 Grok 4보다 98% 저렴하면서도 벤치마크를 앞선다는 것이고, 다른 하나는 128k를 넘으면 요금이 즉시 2배가 된다는 것입니다.
“2M 토큰 컨텍스트 지원”이라는 문구는 기술적 한계를 늘렸다는 의미지, 저렴하게 쓸 수 있다는 보장이 아닙니다. 긴 문서를 통째로 넣는 패턴이라면 128k 경계를 늘 신경 써야 합니다. Grok 4를 선택하기 전에는 “이 태스크에 항상 켜진 추론이 정말 필요한가”를 한 번 더 생각해보는 게 좋습니다.
xAI 생태계는 아직 OpenAI나 Anthropic 대비 레퍼런스가 부족하고 안정성 이슈가 간헐적으로 보고됩니다. 가격 경쟁력은 실제이지만, 프로덕션 투입 전 충분한 테스트 기간이 필요한 플랫폼입니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. xAI는 API 가격을 수시로 업데이트하며, 최신 요금은 반드시 xAI 공식 문서에서 직접 확인하시기 바랍니다. 본 포스팅의 수치는 2026년 3월 29일 기준으로 작성됐습니다.











댓글 남기기