Grok 4.20 멀티에이전트: “4명이 토론하면 정확하다” 믿으면
빈 답변과 구독료 폭탄 동시에 맞는 이유
2026년 2월 17일 퍼블릭 베타 공개 → 3월 10일 Enterprise API 정식 진입.
그러나 한국어 심층 리뷰는 거의 없습니다. 공식 자료와 실사용 데이터로 직접 뜯어봤습니다.
⚠️ 논리 질문 빈 응답 실제 확인
💰 SuperGrok $30 → Heavy $300/월
📊 Alpha Arena 수익률 +12.11%
Grok 4.20이란 무엇인가 — 단일 모델이 아닌 이유
Grok 4.20은 2026년 2월 17일 xAI가 퍼블릭 베타로 공개한 멀티에이전트 AI 시스템입니다. 겉으로 보면 기존 챗봇과 다를 것이 없지만, 내부 구조는 완전히 다릅니다. 하나의 모델이 하나의 답을 만드는 방식이 아니라, 이름과 역할이 각각 다른 4개의 전문화된 AI 에이전트가 병렬로 작동하며 실시간으로 토론한 뒤 최종 답을 도출합니다. xAI는 이를 “4-Agent Multi-Agent Collaboration System”이라고 공식 명명했습니다.
(출처: xAI 공식 Release Notes, 2026.03.10, docs.x.ai/developers/release-notes)
중요한 사실이 하나 있습니다. 현재 베타 버전에서 작동하는 Grok 4.20은 최종 완성 모델이 아닙니다. xAI 내부에서는 이를 “Small”로 분류하며, 파라미터 규모가 약 500B 수준으로 추정됩니다. 전체 스케일의 Medium·Large 버전은 현재도 훈련 중입니다. 즉, 지금 $30을 내고 경험하는 4에이전트 시스템은 완성된 제품이 아니라 아직 덜 익은 버전입니다. 이 점을 먼저 인지하는 것이 핵심입니다.
💡 공식 문서에 기록된 사실: xAI는 2026년 3월 10일자 공식 릴리스 노트를 통해 “Grok 4.20 Beta and Grok 4.20 Multi-agent Beta are available in the xAI Enterprise API”라고 명시했습니다. 이는 소비자 대상 공개(2월 17일)보다 3주 늦게 Enterprise API에 공식 진입한 것입니다. 이 타임라인이 의미하는 바는, 베타가 소비자에게 먼저 던져지고 기업 API는 나중에 열리는 xAI의 특유한 출시 순서입니다.
(출처: docs.x.ai/developers/release-notes, Mar 10, 2026)
4명의 에이전트 구조 — 각자의 역할과 협업 방식
Grok 4.20에는 이름이 붙은 4개의 에이전트가 존재합니다. Grok(Captain)은 전체 작업을 분해하고, 나머지 셋을 조율하며, 최종 답을 합성하는 조율자입니다. Harper는 실시간 웹 검색과 X 플랫폼 피드 접근을 통해 팩트와 최신 정보를 수집하는 리서처입니다. Benjamin은 수학·코드·논리 추론을 담당하며, 다른 에이전트의 주장에 반론을 제기하는 비평가 역할도 겸합니다. 마지막으로 Lucas는 창의적 시각과 대안 해석을 제공하며 가독성과 표현을 다듬습니다.
(출처: eWeek, “xAI’s Grok 4.20 Turns AI Into a Debate Team”, 2026.02.23)
작동 방식은 4단계로 구분됩니다. 먼저 입력된 질문을 Grok이 분석해 서브태스크로 분리하고, 4명이 동시에 각자의 관점으로 분석을 시작합니다. 그다음 내부 토론 단계에서 에이전트들이 서로의 결론을 검토하고 반론을 주고받습니다. 마지막으로 Grok이 전체를 통합해 최종 응답을 출력합니다. xAI는 이 구조가 기존 단일 모델 대비 할루시네이션을 65% 감소시켰다고 주장합니다.
(출처: eWeek, 2026.02.23 / NextBigFuture, 2026.02.17)
| 에이전트 | 역할 | 주요 기능 |
|---|---|---|
| Grok (Captain) | 전략 조율·최종 합성 | 작업 분해, 의견 충돌 해결, 최종 출력 |
| Harper | 실시간 리서치 | X Firehose + 웹 검색, 팩트체크 |
| Benjamin | 수학·코딩·논리 | 정밀 연산, 논리 검증, 코드 작성 |
| Lucas | 창의·표현 | 대안 관점 제시, 가독성 최적화 |
표 alt: Grok 4.20의 4에이전트 역할 분류표 (출처: xAI, eWeek 2026.02.23 기반 재구성)
공식 성능 수치 vs 실사용 — 숫자가 말하지 않는 것들
xAI가 제시하는 성능 근거 중 가장 눈에 띄는 것은 트레이딩 대회 성적입니다. Alpha Arena Season 1.5에서 Grok 4.20은 $10,000을 약 $11,000~$13,500으로 불렸으며, 수익률 기준 평균 12.11%, 최대 34~47%를 기록했습니다. 더 중요한 점은 OpenAI와 Google 모델들이 모두 손실을 기록한 반면 Grok 4.20 만 흑자였다는 사실입니다.
(출처: NextBigFuture, 2026.02.17 / apiyi.com 분석)
이 수치가 의미하는 것은 단순한 벤치마크 1위가 아닙니다. 실시간 X 데이터를 밀리초 단위로 활용해 시장 심리를 가격 신호로 변환하는 능력이 다른 모델과 근본적으로 다른 구조적 우위임을 보여줍니다.
🔍 공식 수치와 실제 사이의 간극 — 직접 확인 가능한 사례
“4명이 토론하면 더 정확해진다”는 전제는 한 가지 조건이 붙습니다. 에이전트들이 실제로 유효한 토론을 해야 한다는 것입니다. 그런데 2026년 3월 11일 Reddit(r/ArtificialIntelligence)에 올라온 실사용 보고에서는 “에이전트들이 서로 대화하는 것처럼 보이지만, 그 토론 내용이 실제 최종 답변에 반영되지 않고 이미 나온 말을 그대로 반복하는 사례를 10번 이상 목격했다”는 내용이 84%의 공감을 받았습니다. 에이전트 UI에는 토론이 표시되지만, 출력은 달라지지 않는 것입니다.
(출처: Reddit u/No_Vehicle7826, r/ArtificialInteligence, 2026.03.11, score:35, upvote_ratio:0.84)
이 데이터가 의미하는 것은, 할루시네이션 65% 감소라는 공식 수치는 특정 벤치마크 조건에서 측정된 것이며, 일상적인 복잡 질문에서는 토론 루프 자체가 형식적으로만 돌아갈 수 있다는 점입니다.
Decrypt가 2026년 3월 8일 GPT-5.4와 직접 비교한 테스트에서는 더 명확한 함정이 드러났습니다. “남자가 자기 과부의 처제와 결혼하는 것이 합법인가?”라는 고전적인 논리 트릭 질문에서 Grok 4.20은 여러 차례 시도에서 아예 빈 응답을 반환했습니다. 심지어 A/B 테스트 양쪽 옵션이 모두 비어 있는 현상도 발생했습니다. 역설적으로 콘텐츠 제약이 가장 느슨하다고 알려진 모델이, 민감하지도 않은 논리 퍼즐에서 응답 자체를 포기한 것입니다.
(출처: Decrypt, “OpenAI GPT-5.4 vs xAI Grok 4.20”, 2026.03.08)
🔍 추론 문제에서 드러난 또 다른 약점 — 직접 검증 가능한 사례
Decrypt의 미스터리 추론 테스트(학교 여행·용의자·단서가 복합된 긴 논리 문제)에서 Grok 4.20은 설득력 있는 답을 냈습니다. 그런데 추론 과정을 들여다보니, Grok은 실제로 문제를 분석한 것이 아니라 해당 문제가 저장된 공개 GitHub 저장소를 Harper가 검색해 답을 가져온 것이었습니다. 다시 말해, 논리적으로 옳은 답을 제출했지만 그것은 추론의 결과가 아니라 검색의 결과였습니다.
(출처: Decrypt, 2026.03.08)
이 사례가 의미하는 것은, Grok 4.20의 “추론 능력”과 “검색 능력”을 구분하지 않으면 성능을 오판할 수 있다는 점입니다. 인터넷에 없는 새로운 문제를 풀어야 할 때는 전혀 다른 결과가 나올 수 있습니다.
구독료의 진짜 구조 — $30이 전부가 아닌 이유
Grok 4.20 베타를 쓰려면 기본적으로 SuperGrok 구독이 필요합니다. 현재 구독 구조는 다음과 같습니다. 무료 플랜은 제한적인 메시지 수와 기본 Grok 모델만 사용 가능합니다. SuperGrok은 월 $30(약 4만 3천 원)이며, Grok 4.20 Beta 4에이전트 모드, 무제한 이미지 생성(Aurora 엔진), 영상 생성, DeepSearch 리서치 모드가 포함됩니다. SuperGrok Heavy는 월 $300(약 43만 원)으로 16에이전트까지 확장되는 Heavy 모드를 사용할 수 있는 최상위 요금제입니다.
(출처: Metronome xAI Pricing Index / grokipedia.com, 2026.03.07 기준)
API를 통해 접근하는 개발자라면 별도 과금 구조가 적용됩니다. OpenRouter 기준으로 grok-4.20-beta는 입력 토큰 백만 개당 $2, 출력 토큰 백만 개당 가격이 책정돼 있습니다.
(출처: OpenRouter, x-ai/grok-4.20-beta, 2026.03 기준)
단, 에이전트가 자율적으로 웹 검색(web_search)이나 코드 실행(code_execution)을 호출할 경우 별도의 툴 호출 비용이 추가됩니다. 공식 문서 기준으로 web_search와 x_search는 각각 1,000회 호출당 $5, 파일 첨부 검색은 $10이 추가됩니다.
(출처: xAI 공식 모델 문서, docs.x.ai/developers/models, Tool Invocation Costs 항목)
⚠️ 실비용 계산 시 주의: 멀티에이전트 모드에서 4명의 에이전트가 각자 웹 검색을 돌리면, 단일 질문 하나에 최대 4회의 web_search 호출이 발생할 수 있습니다. 질문 1,000건을 멀티에이전트로 처리하면 이론상 최대 4,000회 검색 호출 → $20의 툴 비용이 토큰 비용과 별도로 발생합니다. xAI 공식 문서는 “에이전트가 자율적으로 결정하므로 복잡한 쿼리일수록 비용이 배증된다”고 명시하고 있습니다. 이 구조를 모르고 API를 돌리면 월말 청구서가 예상의 2~4배가 될 수 있습니다.
| 플랜 | 월 요금 | 4.20 에이전트 | 이미지/영상 |
|---|---|---|---|
| 무료 | $0 | 제한적 | 기본만 |
| SuperGrok | $30/월 | 4에이전트 ✅ | 무제한 포함 |
| SuperGrok Heavy | $300/월 | 16에이전트 ✅ | 무제한 포함 |
| Enterprise API | 사용량 기반 | Multi-Agent Beta | 토큰 과금 |
표 alt: Grok 4.20 구독 요금제 비교표 (출처: Metronome xAI Pricing Index / grokipedia.com / xAI 공식 docs, 2026.03 기준)
GPT-5.4 vs Grok 4.20 — 어느 쪽을 써야 하는가
2026년 3월 현재 시장에서 Grok 4.20의 가장 직접적인 경쟁 상대는 GPT-5.4입니다. Decrypt가 코딩, 창작, 논리, 민감한 주제 등 5개 카테고리를 직접 테스트한 결과는 단순한 승패표로 정리되지 않습니다. 두 모델은 강점과 약점이 서로 보완적인 관계에 있습니다.
코딩 작업에서는 Grok 4.20이 속도 면에서 GPT-5.4의 약 2배 빨랐습니다. 게임 코드를 생성했을 때 Grok은 즉시 실행 가능한 결과물을 냈습니다. 그러나 레벨 생성 알고리즘에서 특정 레이아웃이 물리적으로 클리어 불가능한 상태를 만들어내는 로직 결함이 있었습니다. 실행은 됐지만 플레이는 불가능했습니다. GPT-5.4는 더 오래 걸렸고 컨텍스트 경고도 떴지만, 최종 결과의 논리적 정합성은 더 높았습니다.
(출처: Decrypt, 2026.03.08)
이것이 의미하는 바는, 데모·프로토타입처럼 작동 여부만 중요할 때는 Grok이 유리하고, 실제 배포 코드나 운영 로직은 GPT-5.4가 더 안전하다는 것입니다.
창작에서는 서로 다른 강점이 뚜렷하게 갈렸습니다. GPT-5.4는 문장 전체의 톤과 구성이 더 안정적이었고, Grok 4.20은 결말의 반전 충격이 더 강력했습니다. 문화적 표현에서 Grok이 지역 고유 요소를 나열식으로 사용해 진부한 고정관념처럼 읽혔다는 점은 주목할 만한 약점입니다.
| 항목 | Grok 4.20 | GPT-5.4 |
|---|---|---|
| 코딩 속도 | ✅ 약 2배 빠름 | △ 느리지만 정확 |
| 코딩 정확성 | △ 실행은 됨, 로직 결함 | ✅ 높은 정합성 |
| 논리 추론 | ❌ 빈 응답 발생 | ✅ 정답 도달(느림) |
| 창작 임팩트 | ✅ 반전 강력 | ✅ 전반적 완성도 |
| 실시간 데이터 | ✅ X Firehose | △ 웹 검색 |
| 기본 구독료 | $30/월 | $20/월(Plus) |
표 alt: Grok 4.20 vs GPT-5.4 주요 항목 비교표 (출처: Decrypt 실사용 테스트 2026.03.08 기반 재구성)
X Firehose가 Grok의 진짜 무기인 이유
Grok이 다른 모델과 가장 근본적으로 다른 지점은 4에이전트 구조가 아닙니다. 그것은 X(구 트위터)의 Firehose 데이터에 실시간으로 접근할 수 있다는 것입니다. Firehose란 X 플랫폼에서 하루 평균 약 6,800만 건의 영어 게시물 전체를 실시간 스트림으로 받아 처리하는 데이터 파이프라인입니다.
(출처: eWeek 2026.02.23 / NextBigFuture 2026.02.17)
💡 공식 API 문서와 개인정보 정책을 교차해 도출한 구조적 분석:
xAI의 API 공식 문서는 X Search 도구가 “키워드·시맨틱 검색, 사용자 검색, 스레드 패치”를 제공한다고 명시합니다. 동시에 xAI 개인정보 정책은 사용자의 Grok 상호작용(입력·결과 포함)이 훈련 및 미세조정에 사용될 수 있다고 밝힙니다. 즉, X 플랫폼은 Grok에게 단순한 검색 소스가 아닙니다. 실시간 추론 도구이자 훈련 데이터 공장 역할을 동시에 합니다. 이는 OpenAI나 Google이 구조적으로 복제하기 어려운 우위입니다. X를 보유하지 않은 이상 동일한 실시간 소셜 Firehose를 학습·추론에 투입할 방법이 없기 때문입니다.
(출처: xAI API 공식 문서 docs.x.ai/developers/tools/x-search / xAI Privacy Policy 교차 분석)
그러나 이 강점이 모든 상황에 적용되지는 않습니다. xAI 공식 모델 문서에는 명확한 제한 조건이 기재되어 있습니다. “Grok has no knowledge of current events or data beyond what was present in its training data. To incorporate realtime data, enable server-side search tools.”
(출처: xAI 공식 모델 문서, docs.x.ai/developers/models, Additional Information 항목)
즉, 검색 도구를 켜지 않으면 Grok도 훈련 데이터 컷오프(2024년 11월) 이후의 정보를 모릅니다. “최신 AI라서 항상 최신 정보를 안다”는 가정 자체가 틀렸으며, Harper 에이전트가 검색을 실행해야만 실시간성이 살아납니다.
베타 한계와 앞으로 — 지금 가입해야 할까
현재 Grok 4.20이 베타라는 사실에는 실질적인 의미가 있습니다. xAI는 훈련 클러스터 Colossus에서 2026년 1월 말 폭설과 건설 공사로 인한 전력선 사고로 훈련이 수 주 지연됐다고 밝혔습니다.
(출처: NextBigFuture, 2026.02.17)
이는 현재 공개된 베타가 원래 계획보다 덜 훈련된 상태일 수 있음을 시사합니다. Reddit 사용자가 지적했듯, “현재 베타에서 작동 중인 Grok 4.20은 약 500B 파라미터 규모(Small)이며, Medium과 Large는 별도 출시 예정”입니다.
xAI는 Grok 4.20에 대해 “매주 개선 및 릴리스 노트 제공”을 약속했습니다. 이는 기존 AI 모델들의 대형 릴리즈 방식과 다른 접근입니다. 매주 작은 개선을 반복하는 방식은 빠른 버그 수정과 기능 개선을 가능하게 하지만, 동시에 오늘 테스트한 기능이 다음 주에는 바뀌어 있을 수도 있다는 불안정성을 내포합니다. 현재 SuperGrok $30을 내고 쓰는 것은, 베타테스터로 참여하는 것과 유사합니다.
결론적으로 지금 구독이 맞는 경우: 주식·금융 시장 분석처럼 X 실시간 데이터가 필수적이고, 속도가 중요하며, 약간의 논리 오류는 직접 검증할 수 있는 전문 사용자라면 $30은 가치 있는 투자입니다. 구독을 미루는 것이 나은 경우: 정확한 논리·추론이 생사를 가르는 업무(법률·의료·금융 계약서 작성 등), 또는 코딩 결과를 그대로 배포해야 하는 환경이라면 완성도가 더 높은 GPT-5.4가 현재로선 더 안전한 선택입니다.
Q&A 5선 — 자주 묻는 질문
Q1. Grok 4.20은 한국어로도 잘 작동하나요?
Grok 4.20의 실시간 강점인 X Firehose는 일평균 약 6,800만 건의 영어 게시물을 처리합니다. 한국어 콘텐츠는 이 데이터에서 비중이 매우 낮습니다. 즉, 한국어 실시간 정보 탐색 능력은 영어 대비 현저히 떨어집니다. 공식 벤치마크에서도 한국어 특화 평가는 별도로 공개된 것이 없습니다. 일반 한국어 대화나 번역 등 기본 언어 기능은 작동하지만, X 실시간 분석이라는 핵심 차별점은 한국어 환경에서는 거의 작동하지 않는다고 보는 것이 현실적입니다.
Q2. SuperGrok $30과 X Premium+ 중 어느 것이 Grok 4.20을 쓰기에 더 낫나요?
SuperGrok과 X Premium+는 별개의 구독입니다. X Premium+는 X 플랫폼 자체의 기능 확장이 주목적이고, Grok 접근 권한은 부수적으로 포함됩니다. SuperGrok은 Grok 4.20 4에이전트 모드, 무제한 이미지·영상 생성, DeepSearch를 명시적으로 포함하는 AI 전용 구독입니다. Grok 4.20 멀티에이전트를 제대로 쓰려면 SuperGrok($30/월)이 더 확실한 선택입니다.
(출처: grokipedia.com, 2026.03.07)
Q3. Grok 4.20을 API로 쓰면 구독 없이도 되나요?
2026년 3월 10일부터 xAI Enterprise API에 Grok 4.20 Beta와 Grok 4.20 Multi-agent Beta가 공식 진입했습니다. 따라서 개발자는 xAI API 키를 발급받아 토큰 과금 방식으로 Grok 4.20을 구독 없이 사용할 수 있습니다. 다만 멀티에이전트 베타는 Enterprise API 전용이며, 에이전트 툴 호출 시 별도 비용이 발생하므로 사용 전 xAI 공식 요금표를 반드시 확인해야 합니다.
(출처: docs.x.ai/developers/release-notes, 2026.03.10)
Q4. Grok 4.20은 GPT-5.4보다 무조건 느린가요?
아닙니다. 코딩 작업 테스트에서 Grok 4.20은 GPT-5.4보다 약 2배 빠른 속도로 결과를 냈습니다. 4에이전트가 병렬로 처리하기 때문에 단일 쿼리의 출력 속도는 오히려 더 빠를 수 있습니다. 다만 복잡한 추론 질문에서 에이전트 토론 루프가 길어지면 응답 시간이 늘어날 수 있으며, Heavy 모드(16에이전트)는 속도보다 깊이를 우선합니다.
(출처: Decrypt 코딩 테스트, 2026.03.08)
Q5. Grok 4.20의 학습 데이터 컷오프는 언제인가요?
xAI 공식 문서에 따르면 Grok 3 및 Grok 4 시리즈의 학습 데이터 컷오프는 2024년 11월입니다. 즉, 검색 도구(web_search, x_search)를 켜지 않으면 2024년 11월 이후 사건에 대해 Grok 4.20도 알지 못합니다. “최신 모델이니까 최신 뉴스도 안다”는 기대는 잘못된 전제입니다. 실시간 정보가 필요하다면 반드시 검색 도구를 활성화해야 하며, 이때 추가 툴 비용이 발생합니다.
(출처: docs.x.ai/developers/models, “The knowledge cut-off date of Grok 3 and Grok 4 is November, 2024.”)
마치며 — Grok 4.20에 대한 현실적 총평
Grok 4.20은 AI 업계에서 처음으로 멀티에이전트 구조를 소비자 제품 수준으로 끌어내린 모델입니다. 4명의 에이전트가 토론한다는 아이디어 자체는 구조적으로 의미 있고, Alpha Arena 트레이딩 테스트에서 유일하게 흑자를 기록한 실적은 X Firehose와 결합했을 때 특정 영역에서 타 모델을 능가하는 능력이 실재함을 보여줍니다.
그러나 현재 베타 상태의 Grok 4.20은 명확한 한계가 있습니다. 에이전트 토론이 최종 출력에 반영되지 않는 사례, 논리 질문에서의 빈 응답, 추론 대신 검색으로 답을 가져오는 패턴은 공식 수치가 드러내지 않는 실사용 리스크입니다. 구독료 역시 API 툴 비용까지 합산하면 체감 지출이 표면 가격을 상회할 수 있습니다.
개인적인 판단을 덧붙이자면, Grok 4.20은 “지금 당장 모든 것을 대체하는 AI”가 아니라 “실시간 금융·소셜 데이터가 중요한 전문 영역에서 특수한 우위를 가지는 AI”로 보는 것이 맞습니다. Medium·Large 버전이 출시되면 평가는 달라질 수 있습니다. 그때 다시 확인해볼 가치가 있는 모델입니다.
📚 본 포스팅 참고 자료
- xAI 공식 Release Notes (docs.x.ai/developers/release-notes)
- xAI 공식 모델 및 요금 문서 (docs.x.ai/developers/models)
- eWeek — xAI’s Grok 4.20 Turns AI Into a Debate Team (2026.02.23)
- NextBigFuture — xAI Launches Grok 4.20, 4 AI Agents Collaborating (2026.02.17)
- Decrypt — OpenAI GPT-5.4 vs xAI Grok 4.20 실사용 비교 (2026.03.08)
- OpenRouter — Grok 4.20 Beta 토큰 가격 (2026.03)
- APIYI — Grok 4.20 Beta 4 Agents 기술 분석 가이드
⚠️ 본 포스팅은 2026년 3월 17일 기준으로 작성되었습니다. Grok 4.20은 현재 베타 상태로, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 특히 베타 기간 중에는 주간 단위 업데이트가 진행 중이므로, 최신 정보는 xAI 공식 문서(docs.x.ai)를 직접 확인하시기 바랍니다. 본 포스팅의 수치와 비교 결과는 특정 시점의 테스트를 기반으로 하며, 투자·법률·의료 결정의 근거로 사용하지 마시기 바랍니다.











댓글 남기기