xAI Grok 4.20 Beta 0309
Grok 4.20 써봤습니다 — 좋은 것과 아쉬운 것
xAI가 2026년 3월 27일 정식 출시한 Grok 4.20. “할루시네이션 최저”라는 타이틀은 진짜인데, 막상 API를 뜯어보면 기대와 다른 부분이 있습니다.
할루시네이션율 (최저)
창 (멀티에이전트)
(100만 토큰당)
(Artificial Analysis)
Grok 4.20가 뭔지, 한 줄로 먼저
Grok 4.20은 일론 머스크의 xAI가 2026년 3월 27일 정식 공개한 플래그십 AI 모델입니다. 출시 전 베타 버전(0309)이 먼저 API에 풀렸고, 이 베타 수치가 벤치마크에서 화제가 됐습니다. 공식 모델명은 grok-4.20이며, 단일 모델이 아닌 멀티에이전트 아키텍처가 핵심입니다.
Grok 4.20의 공식 설명은 “업계 최고 속도와 에이전틱 툴 호출 능력을 결합한 최신 플래그십 모델”입니다. (출처: xAI 공식 문서 docs.x.ai/developers/models, 2026.03) 속도와 정확도를 동시에 잡겠다는 방향인데, 실제로 그게 되는지는 아래에서 수치로 확인합니다.
Reasoning(추론) 모드와 Non-Reasoning(비추론) 모드 두 가지로 나뉩니다. 복잡한 수학·기술 분석엔 Reasoning, 단순 검색·고처리량 작업엔 Non-Reasoning을 씁니다. 모델 선택 하나로 응답 속도와 비용이 크게 달라집니다.
할루시네이션 22%, 실제로 어떤 의미인가
💡 공식 발표문과 실제 벤치마크 결과를 같이 놓고 보니, “가장 안 틀린다”는 말이 “가장 많이 맞춘다”는 말과 다르다는 게 보였습니다.
Grok 4.20 Beta 0309 (Reasoning)은 Artificial Analysis의 AA-Omniscience 벤치마크에서 할루시네이션율 22%를 기록했습니다. 현재 테스트된 모든 AI 중 가장 낮은 수치입니다. (출처: Artificial Analysis, artificialanalysis.ai/evaluations/omniscience, 2026.03.12) 2위 Claude 4.5 Haiku가 25%이므로 격차는 3%포인트입니다.
그런데 여기서 중요한 구분이 있습니다. AA-Omniscience 할루시네이션율은 “맞는 답변 비율”이 아닙니다. 이 지표는 “모델이 틀린 답을 자신 있게 내놓는 비율”을 측정합니다. 공식 정의를 보면, “모델이 답변을 거부하거나 모른다고 인정했어야 할 때 틀린 답을 내놓는 비율(incorrect / (incorrect + partial + not attempted))”입니다. 22%라는 수치는 “답하지 말았어야 할 순간에 틀린 답을 쏟아내는 빈도가 가장 낮다”는 뜻입니다.
정확도(Accuracy) 순위는 다릅니다. AA-Omniscience 정확도 1위는 Gemini 3.1 Pro Preview(55%)이고, Grok 4.20은 정확도에서 전체 8위권에 머뭅니다. “가장 안 틀린다”와 “가장 많이 맞춘다”는 다른 이야기입니다. 할루시네이션율만 보고 전반적인 지식 정확도가 최고라고 판단하면 실제 사용에서 기대 차이가 생깁니다.
| 모델 | 할루시네이션율 | 정확도 순위 |
|---|---|---|
| Grok 4.20 Beta (Reasoning) | 22% 🥇 | 8위권 |
| Claude 4.5 Haiku (Non-reasoning) | 25% | — |
| Grok 3 mini Reasoning (high) | 25% | — |
| Gemini 3.1 Pro Preview | — | 정확도 1위 (55%) |
출처: Artificial Analysis AA-Omniscience (artificialanalysis.ai/evaluations/omniscience)
할루시네이션율 22%를 실무에서 해석하자면, 모르면 “모른다”고 솔직히 말해주는 빈도가 높다는 뜻입니다. 잘못된 확신보다는 적절한 거절이 많아 실제 검증 작업 부하를 줄여주는 장점이 있습니다.
멀티에이전트 구조 — 4개가 싸운다는 게 진짜입니다
💡 “멀티에이전트”라는 말이 마케팅 용어처럼 들리기 쉬운데, xAI 공식 문서에 API 파라미터까지 나와 있습니다. 실제로 다르게 작동합니다.
Grok 4.20의 멀티에이전트 기능은 grok-4.20-multi-agent 모델명으로 따로 호출합니다. 공식 문서에 따르면, 여러 에이전트가 동시에 리서치를 수행하고 각자의 중간 추론·툴 호출 결과를 공유한 뒤, 리더 에이전트가 최종 답변을 합성해 반환하는 구조입니다. (출처: xAI 공식 문서 docs.x.ai/developers/model-capabilities/text/multi-agent, 2026.03) 리더 에이전트의 응답만 사용자에게 전달됩니다.
에이전트 수는 4개와 16개 중 선택합니다. 4에이전트는 집중적인 단일 주제 조사에, 16에이전트는 복잡한 다면적 분석에 적합합니다. API 파라미터로는 agent_count=4 또는 agent_count=16으로 지정합니다. xAI SDK 기준이며, OpenAI SDK 호환 방식에서는 reasoning.effort를 “low”/”medium”(4 에이전트) 또는 “high”/”xhigh”(16 에이전트)로 매핑합니다.
단, 중요한 제약이 있습니다. 멀티에이전트 모드는 OpenAI Chat Completions API를 지원하지 않습니다. xAI SDK 또는 Responses API만 사용 가능합니다. 기존에 OpenAI SDK로 짜둔 코드를 그대로 멀티에이전트에 붙이면 작동하지 않으니, 마이그레이션 전에 이 조건을 반드시 확인해야 합니다. 또한 클라이언트 측 커스텀 툴은 현재 지원하지 않고, xAI 내장 툴(web_search, x_search 등)과 리모트 MCP 툴만 사용할 수 있습니다. (출처: xAI 공식 문서, 2026.03)
비용 측면에서 중요한 점도 있습니다. 리더 에이전트와 모든 서브 에이전트가 사용한 입력·출력·추론 토큰이 전부 청구됩니다. 에이전트 수가 많을수록 단일 요청 비용이 선형 이상으로 늘어납니다. “16에이전트 풀로 쓰면 4에이전트 대비 토큰 소비가 크게 늘어날 수 있다”고 공식 문서도 직접 경고하고 있습니다.
200만 토큰인데 컨텍스트가 줄어드는 조건이 있습니다
💡 “200만 토큰”이라는 숫자만 보고 플레이그라운드에서 쓰면 실제 응답 길이 한도가 생각보다 짧아서 당황할 수 있습니다.
Grok 4.20의 컨텍스트 창은 최대 200만 토큰입니다. Claude Opus 4.6의 20만 토큰과 비교하면 10배입니다. 이론적으로 소설 수십 권 분량을 한 번에 처리할 수 있습니다. (출처: Oracle OCI Generative AI 공식 문서 docs.oracle.com/en-us/iaas/Content/generative-ai/xai-grok-4-20.htm, 2026.03)
그런데 플레이그라운드에서 쓸 때는 응답 길이가 회당 최대 13만 1천 토큰으로 제한됩니다. 컨텍스트 전체 창이 200만이어도, 한 번의 응답으로 돌려받을 수 있는 분량은 훨씬 작습니다. API에서 max_tokens를 적절히 높이지 않으면, 복잡한 작업에서 “응답이 중간에 잘리는” 현상이 생깁니다. Oracle 공식 문서도 “복잡한 문제에서 max_tokens를 높게 설정하라”고 트러블슈팅 항목에 직접 명시했습니다.
멀티에이전트 모드에서는 200만 토큰 전체가 활성화됩니다. 하지만 16에이전트를 구동하면 에이전트들이 동시에 컨텍스트를 소비하므로, 실질적으로 사용할 수 있는 컨텍스트 효율은 단순 산술보다 낮아집니다. 에이전트당 처리 비용도 별도로 청구되기 때문에 200만 토큰을 최대한 쓸수록 비용이 빠르게 누적됩니다.
또 하나 주목할 점은 지식 컷오프 날짜입니다. Grok 3과 Grok 4의 학습 데이터 컷오프는 2024년 11월로 공식 문서에 나와 있습니다. (출처: xAI 공식 문서 docs.x.ai/developers/models) 실시간 데이터는 web_search, x_search 툴을 활성화해야만 반영됩니다. 툴 없이 쓰면 2024년 11월 이후 사건을 모르는 채로 답합니다.
API 요금 구조 — Batch API 쓰면 반값이 됩니다
Grok 4.20의 기본 API 요금은 입력 $2/100만 토큰, 출력 $6/100만 토큰입니다. (출처: xAI 공식 문서 docs.x.ai/developers/models, 2026.03) Claude Sonnet 4.6($5 입력/$25 출력)이나 GPT-5.4($5 입력/$20 출력)와 비교하면 입력은 60%, 출력은 76~78% 저렴합니다. 같은 작업량 기준으로 비용 차이가 상당합니다.
| 모델 | 입력 | 출력 | 비고 |
|---|---|---|---|
| Grok 4.20 | $2 | $6 | Batch 시 $1/$3 |
| Grok 4.20 Fast | $5 | $25 | 고속 추론 버전 |
| Claude Sonnet 4.6 | $5 | $25 | — |
| Grok 3 Mini | $0.25 | $0.50 | 경량 모델 |
출처: xAI 공식 문서 docs.x.ai/developers/models, openrouter.ai 참고
여기서 잘 알려지지 않은 부분이 있습니다. Batch API를 사용하면 모든 토큰 유형에 50% 할인이 적용됩니다. 입력·출력·캐시·추론 토큰 모두 포함입니다. 요청이 비동기로 처리되며 대부분 24시간 이내에 완료됩니다. 실시간 응답이 불필요한 대량 분석 작업에선 Grok 4.20을 Batch API로 돌리는 편이 입력 $1/출력 $3까지 낮출 수 있습니다. (출처: xAI 공식 문서 Batch API 섹션, 2026.03) 다만 이미지·영상 생성은 Batch 할인 대상이 아닙니다.
툴 호출 비용도 별도입니다. web_search, x_search, code_execution은 각각 1천 회당 $5, 파일 첨부 검색(attachment_search)은 1천 회당 $10입니다. 멀티에이전트 16개 구성에 웹 검색을 붙이면 요청 한 건에 수십 번의 툴 호출이 발생할 수 있으므로, 비용 시뮬레이션 없이 프로덕션에 투입하면 청구액이 예상을 크게 초과할 수 있습니다.
코딩·추론 벤치마크에서 조용히 밀리는 이유
💡 xAI가 할루시네이션율을 전면에 내세운 이유를, 코딩·지능 벤치마크 순위와 같이 보면 이해됩니다.
일론 머스크 본인도 인정한 내용이 있습니다. 2026년 3월 14일 X(트위터) 발언에서, Grok 4.20이 “예측(prediction) 지표에서는 최고 수준이지만 코딩 분야에서는 경쟁사보다 뒤처져 있다”고 직접 밝혔습니다. Artificial Analysis 기준으로 Grok 4.20의 종합 지능 순위는 8위이며, Gemini 3.1 Pro Preview, Claude Opus 4.6보다 낮습니다.
이 부분이 실사용에서 중요합니다. Grok 4.20은 실시간 X(트위터) 데이터 접근, 소셜 미디어 트렌드 분석, 빠른 정보 검색 같은 작업에서는 경쟁 모델이 따라오기 어려운 구조적 장점이 있습니다. X 데이터는 Grok에만 네이티브로 연결돼 있고, 다른 모델은 별도 통합 없이는 접근이 불가합니다. (출처: MindStudio 공식 블로그 mindstudio.ai/blog/grok-420-vs-claude-opus-46-real-time-search, 2026.03) 이 실시간성이 Grok 4.20의 핵심 경쟁력입니다.
반면 학술 논문 합성, 복잡한 코드 생성, 다단계 추론이 필요한 작업에서는 Claude Opus 4.6이나 Gemini 3.1 Pro Preview가 일관되게 앞서는 것으로 독립 벤치마크가 보여줍니다. Grok 4.20은 속도와 비용 효율성을 우선 설계한 모델이고, 깊이 있는 분석은 그 다음 순위입니다.
현실적인 사용법은 분업 구조입니다. Grok 4.20으로 실시간 데이터를 수집하고, Claude나 Gemini로 그 데이터를 분석·합성하는 방식이 단일 모델 단독 사용보다 결과가 낫습니다. 두 모델을 파이프라인으로 연결하는 것이 비용과 품질 모두를 잡는 접근입니다.
자주 묻는 질문
마치며 — 쓸 자리를 제대로 고르면 됩니다
Grok 4.20은 “모든 걸 잘하는” 모델이 아닙니다. 할루시네이션율 22%라는 수치는 진짜이고, 200만 토큰 컨텍스트도 진짜입니다. 그런데 종합 지능 순위는 8위이고, 코딩은 경쟁사에 밀리고, 멀티에이전트 모드는 OpenAI SDK와 연결이 안 됩니다.
솔직히 말하면, xAI가 할루시네이션율을 전면에 내세운 건 전략적 선택으로 보입니다. 지능 순위나 코딩 벤치마크로는 경쟁사를 이기기 어려운 시점에, 검증 가능한 수치로 차별화한 것입니다. 그 수치 자체는 유효합니다. 단지 그것이 전부가 아닐 뿐입니다.
실시간 X 데이터 접근, 소셜 센티먼트 분석, 비용 민감한 대량 API 처리 — 이 세 가지 중 하나라도 해당된다면 Grok 4.20은 지금 당장 테스트해볼 가치가 있습니다. Batch API 50% 할인까지 더하면 비용 구조도 매력적입니다. 쓸 자리가 맞는 사람에게는 꽤 좋은 선택지입니다.
📎 본 포스팅 참고 자료
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 요금·수치는 2026년 3월 27일 공식 출시 기준이며, xAI의 정책 업데이트에 따라 달라질 수 있습니다. 최신 정보는 xAI 공식 문서(docs.x.ai)에서 직접 확인하시기 바랍니다.











댓글 남기기