2026.03.10 기준 / grok-4.20-multi-agent (Beta)

Grok 4.20 멀티에이전트,
4가지 수치로 직접 확인했습니다

4에이전트 vs 16에이전트 비용, Chat Completions 미지원 함정,
실사용 토큰 소모량까지 공식 문서 기준으로 정리했습니다.

$2/M 입력 토큰

컨텍스트 200만 토큰

에이전트 4개 or 16개

Beta 2 출시 2026.03.03

Grok 4.20 멀티에이전트가 정확히 뭔가

xAI가 2026년 2월 17일 공개 베타로 내놓은 Grok 4.20 멀티에이전트는 단순히 새 버전 번호가 붙은 업그레이드가 아닙니다. 하나의 질문에 여러 에이전트가 동시에 달려들어 각자 조사하고, 서로 결과를 검토한 뒤 리더 에이전트가 최종 답변을 내놓는 구조입니다. xAI 공식 문서에는 이 방식을 “Realtime Multi-agent Research”라고 표기합니다. (출처: docs.x.ai/developers/model-capabilities/text/multi-agent)

에이전트 이름도 공식적으로 정해져 있습니다. Grok·Harper·Benjamin·Lucas라는 네 명의 에이전트가 협업하고, 설정에 따라 16개까지 확장할 수 있습니다. 3월 3일 Beta 2를 거쳐 3월 10일 API에 정식으로 통합됐습니다. (출처: xAI Release Notes, docs.x.ai/developers/release-notes)

API 모델명은 grok-4.20-multi-agent입니다. xAI SDK 또는 Responses API로만 호출할 수 있고, OpenAI의 Chat Completions API로는 작동하지 않습니다. 이 부분이 실사용에서 가장 많이 걸리는 함정입니다 — 아래 섹션에서 자세히 다룹니다.

💡 공식 발표 흐름을 시간순으로 놓고 보면, 2월 베타 → 3월 Beta 2 → 3월 API 통합 순서로 불과 3주 만에 완성됐습니다. 이례적으로 빠른 릴리스 사이클입니다.

▲ 목차로 돌아가기

4에이전트와 16에이전트 비용 차이, 직접 계산했습니다

Grok 4.20 멀티에이전트의 공식 토큰 단가는 입력 $2/1M, 출력 $6/1M입니다. (출처: xAI API 공식 문서, docs.x.ai/developers/models, 2026.03) 수치만 보면 GPT-5.2($1.75/1M 입력)와 비슷한 수준입니다. 그런데 여기서 생각대로 되지 않는 부분이 있습니다.

에이전트 수에 따른 실제 토큰 사용량 차이

구성	에이전트 수	요청당 예상 토큰	적합한 쿼리
4-Agent	4개	7,000~20,000	빠른 조사, 집중 쿼리
16-Agent	16개	50,000~135,000	복합 리서치, 다각도 분석

※ 요청당 토큰 수치는 실사용 Reddit 보고 기준 추정값 (출처: r/SillyTavernAI, 2026.03.14)

실사용자 보고에 따르면 16-Agent 구성에서 700토큰짜리 응답 하나에 13만 5천 토큰이 소모된 사례도 있습니다. (출처: r/SillyTavernAI, 2026.03.14) 응답 토큰이 700개여도 추론과 에이전트 간 협의에 쓰인 토큰이 전부 과금됩니다. 출력 $6/1M 기준으로 계산하면, 13만 5천 토큰 = 약 $0.81 — 요청 하나에 웬만한 웹 검색 수십 번치 비용이 나옵니다.

💡 공식 문서와 실사용 수치를 함께 보면 이런 그림이 나옵니다 — 16-Agent가 무조건 좋은 게 아니라, 단순 쿼리에 16개를 돌리면 4-Agent 대비 5~10배 비용이 발생합니다.

▲ 목차로 돌아가기

비용이 싸다는 말이 절반만 맞는 이유

토큰 단가만 보면 Grok 4.20 멀티에이전트($2/$6)는 Claude Sonnet 4.6($3/$15)이나 GPT-5.2($1.75/$14)보다 저렴해 보입니다. 그런데 여기에 툴 호출 비용이 따로 붙습니다. 공식 문서 기준으로, 웹 검색 1,000번에 $5, 코드 실행 1,000번에 $5입니다. (출처: docs.x.ai/developers/models#tools-pricing)

멀티에이전트 특성상 에이전트 각각이 독립적으로 툴을 호출할 수 있습니다. 즉, 16-Agent 구성에서 각 에이전트가 웹 검색을 3번씩 돌리면 요청 하나에 최대 48회 검색 비용이 붙습니다. 48회 × $0.005 = 요청 1건당 $0.24 추가 — 토큰 비용과 별도입니다. xAI 공식 문서도 이 점을 명시합니다: “Because multiple agents may run in parallel and each can independently invoke tools, a single multi-agent request may use significantly more tokens and tool calls than a standard single-agent request.” (출처: docs.x.ai/developers/model-capabilities/text/multi-agent)

비용 구성을 분해해 보면

토큰 비용: 리더 에이전트 + 서브 에이전트 전원 추론 토큰 포함 과금
툴 호출 비용: 에이전트별 독립 과금, 검색·코드 실행 각 $5/1K calls
캐시 할인: 반복 프롬프트는 $0.50/1M까지 줄어듦 (자동 적용)
배치 할인: 비실시간 요청은 50% 할인 가능 (단, 이미지·영상 제외)

결론부터 말하면, 복잡한 리서치 쿼리에서 16-Agent+웹 검색 조합은 요청 1건 단가가 $1 이상 나올 수 있습니다. 단순 Q&A나 집중형 쿼리라면 4-Agent에 툴을 제한적으로 쓰는 게 합리적입니다.

▲ 목차로 돌아가기

OpenAI SDK로 그냥 붙이면 막히는 지점

Grok API는 OpenAI 호환 포맷을 지원합니다. 그래서 많은 개발자들이 기존 ChatGPT 코드의 엔드포인트만 바꿔서 붙이려고 합니다. 대부분의 모델에서는 통하는 방식이고, Grok 4.1 Fast 같은 일반 모델은 실제로 이렇게 씁니다.

그런데 Grok 4.20 멀티에이전트는 Chat Completions API를 지원하지 않습니다. 공식 문서에 딱 이렇게 나옵니다: “The multi-agent model does not work with the OpenAI Chat Completions API. Use the xAI SDK or the Responses API instead.” (출처: docs.x.ai/developers/model-capabilities/text/multi-agent, 2026.03) OpenAI 호환이라고 해서 그대로 쓰면 에러가 납니다.

⚠️ 멀티에이전트 사용 시 추가 제약사항 (공식 문서 기준)

Chat Completions API 미지원 — xAI SDK 또는 Responses API만 가능
클라이언트 사이드 커스텀 툴 미지원 — 빌트인 툴(web_search, x_search 등)과 Remote MCP만 허용
max_tokens 파라미터 미지원 — 출력 길이를 직접 제어할 수 없음
logprobs 필드 미지원 — 요청에 포함해도 무시됨
서브에이전트 중간 과정 기본 비공개 — use_encrypted_content 옵션 활성화 필요

max_tokens를 못 쓴다는 건 생각보다 체감이 큽니다. 에이전트들이 자율적으로 응답 길이를 결정하기 때문에, 간단한 쿼리에도 장문의 답변이 나오고 토큰 비용이 예상치를 초과할 수 있습니다. 실제 예산 관리는 xAI 콘솔의 지출 한도 설정으로 대신할 수 있습니다. (출처: docs.x.ai/console/billing)

▲ 목차로 돌아가기

같은 돈으로 GPT vs Grok, 직접 비교했습니다

모두가 “가성비”를 말할 때 빠지기 쉬운 착각이 있습니다. 토큰 단가만 보고 싸다고 결론 내리는 겁니다. 실제로 $10 예산 기준으로 계산해봤습니다.

모델	입력 단가	출력 단가	컨텍스트	멀티에이전트
Grok 4.20 (multi-agent)	$2/1M	$6/1M	200만 토큰	✅ 네이티브
Grok 4.1 Fast	$0.20/1M	$0.50/1M	200만 토큰	❌
GPT-5.2	$1.75/1M	$14/1M	40만 토큰	별도 구성
Claude Sonnet 4.6	$3/1M	$15/1M	20만 토큰 (1M 베타)	별도 구성

출처: mem0.ai/blog/xai-grok-api-pricing (2026.03.05 기준 검증), xAI 공식 문서 (docs.x.ai/developers/models)

단순 비용 비교에서 Grok 4.1 Fast가 압도적으로 저렴합니다. Grok 4.20 멀티에이전트는 단가만 보면 GPT-5.2와 비슷한 수준인데, 멀티에이전트 추론 토큰까지 더하면 실질 단가가 GPT-5.2보다 높게 나올 수 있습니다. 멀티에이전트를 쓸 이유는 “단순히 싸서”가 아니라, 네이티브 다중 에이전트 협업이 필요한 복잡한 리서치 작업이 있을 때입니다.

💡 Grok 4.1 Fast의 컨텍스트 윈도우 200만 토큰은 2026년 3월 현재 주요 프런티어 모델 중 가장 큽니다. GPT-5.2(40만), Claude Sonnet 4.6(20만)과 비교하면 Grok 4.1 Fast가 장문 문서 분석·대규모 코드베이스 처리에서 단가 대비 압도적으로 유리합니다.

▲ 목차로 돌아가기

실제 사용자들이 겪은 문제들

3월 초 Reddit과 X에서 수집된 실사용 피드백을 보면, 긍정 평가와 부정 평가가 명확하게 갈립니다. 긍정 측은 “컨텍스트 추적이 뛰어나고 웹 리서치 품질이 좋다”는 평가가 많습니다. 멀티에이전트가 긴 대화에서도 초반 맥락을 기억하는 점은 실제로 돋보입니다. (출처: r/SillyTavernAI, 2026.03.14)

반면 부정적인 평가의 공통 키워드는 세 가지입니다. 비용 예측 불가, 응답 장황함, 캐릭터화 어려움입니다. 특히 롤플레이나 창작 글쓰기 목적의 사용자들은 에이전트들이 서로 검증하다 보니 응답이 과도하게 분석적이고 로봇 같다는 피드백을 공통적으로 남겼습니다. 같은 맥락에서 Grok 4.20 (싱글 모드)과 멀티에이전트 버전의 성격이 체감상 다르다는 보고도 있습니다.

Beta 2(2026.03.03) 주요 개선사항

지시 이행 정밀도 향상
환각(hallucination) 감소
과학 텍스트 품질 개선 및 LaTeX 네이티브 지원
이미지 검색 트리거 정확도 개선
멀티 이미지 렌더링 안정성 향상

출처: basenor.com, 2026.03.08 기준

커스텀 인스트럭션 한도가 12,000자에서 4,000자로 줄어든 것도 눈에 띕니다. (출처: basenor.com, 2026.03.08) 이 변경에 대해 xAI는 공식 이유를 밝히지 않았습니다. 다만 에이전트 정의가 짧고 명확할수록 결과물 품질이 올라간다는 실사용 경험은 복수의 개발자가 공유하고 있습니다.

▲ 목차로 돌아가기

Q&A

Q
무료로 Grok 4.20 멀티에이전트를 써볼 수 있나요?

API는 유료 과금이지만, console.x.ai에서 계정 생성 후 소량의 무료 크레딧으로 테스트할 수 있습니다. 개인 사용자라면 SuperGrok ($30/월) 구독을 통해 앱에서 Grok 4.2를 사용할 수 있습니다. 다만 앱과 API는 같은 모델이어도 접근 방식이 다릅니다.

Q
Python으로 기존 OpenAI 코드를 그대로 Grok 4.20 멀티에이전트에 쓸 수 있나요?

아닙니다. Chat Completions API 형태는 지원하지 않습니다. xAI SDK를 별도로 설치하거나 Responses API를 써야 합니다. 모델명만 바꿔서 openai.ChatCompletion 호출하면 에러가 납니다. (출처: docs.x.ai/developers/model-capabilities/text/multi-agent)

Q
4-Agent와 16-Agent 중 어느 쪽을 써야 하나요?

집중형 단일 주제 쿼리라면 4-Agent, 여러 관점이 필요한 복합 리서치라면 16-Agent가 적합합니다. xAI SDK 기준으로 agent_count=4 또는 agent_count=16으로 직접 설정합니다. 단순 질문에 16-Agent를 쓰면 토큰 비용이 불필요하게 5~10배 이상 늘어납니다.

Q
Grok의 지식 컷오프가 2024년 11월이라는데, 최신 정보를 어떻게 가져오나요?

공식 문서에 명시된 내용입니다. Grok 3와 Grok 4 모두 훈련 데이터 컷오프는 2024년 11월입니다. 최신 정보가 필요하면 web_search 또는 x_search 서버 사이드 툴을 명시적으로 활성화해야 합니다. 툴 없이 물으면 2024년 11월 이후 정보는 없다고 답합니다. (출처: docs.x.ai/developers/models)

Q
서브에이전트들이 실제로 무슨 생각을 하는지 볼 수 있나요?

기본값은 암호화된 채로 감춰집니다. xAI SDK에서 use_encrypted_content=True 옵션을 켜야 서브에이전트의 중간 추론 과정을 포함한 전체 컨텍스트를 볼 수 있습니다. 멀티턴 대화에서 전체 컨텍스트가 필요할 때 이 옵션을 씁니다.

▲ 목차로 돌아가기

마치며

Grok 4.20 멀티에이전트를 한마디로 정리하면, 쓸 곳이 명확한 사람에겐 충분히 매력적이고, 그냥 비용 대비 성능이 좋겠지 싶어 쓰면 예상보다 비쌉니다. 토큰 단가 $2/$6은 경쟁 모델 대비 합리적이지만, 멀티에이전트 추론 토큰과 툴 호출 비용이 실질 단가를 크게 끌어올립니다.

OpenAI SDK를 그대로 쓰다가 막히는 경험도 꽤 많습니다. Chat Completions API 미지원, max_tokens 파라미터 미지원, 클라이언트 사이드 커스텀 툴 미지원이라는 세 가지 제약은 기존 파이프라인에 붙이려는 개발자에게 실질적인 추가 작업을 만듭니다.

반면 복잡한 멀티스텝 리서치를 네이티브로 돌리고 싶다면, 현재로선 xAI가 API 수준에서 공식 지원하는 유일한 선택지입니다. 200만 토큰 컨텍스트도 경쟁 모델 대비 강점입니다. 지출 한도를 먼저 설정하고, 4-Agent에서 시작해 실제 필요성이 확인될 때 16-Agent로 확장하는 순서로 접근하면 낭패를 줄일 수 있습니다.

솔직한 결론: 베타 딱지가 아직 붙어있고, Beta 3가 개발 중이라는 일론 머스크의 공식 발언도 있습니다. 프로덕션 전면 도입보다는 소규모 실험으로 먼저 비용 구조를 파악하는 게 맞습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

xAI Release Notes — docs.x.ai/developers/release-notes
xAI Multi-agent 공식 문서 — docs.x.ai/developers/model-capabilities/text/multi-agent
xAI Models & Pricing — docs.x.ai/developers/models
mem0.ai — xAI Grok API Pricing 2026 — mem0.ai/blog/xai-grok-api-pricing
r/SillyTavernAI — Grok 4.20 실사용 토론 (2026.03.14) — reddit.com

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. xAI는 Grok 4.20을 Beta로 운영 중이며, API 인터페이스 및 가격 정책은 사전 고지 없이 변경될 수 있습니다. 투자 또는 사업 결정 시 공식 xAI 문서(docs.x.ai)에서 최신 정보를 직접 확인하십시오.

Grok 4.20 멀티에이전트,
4가지 수치로 직접 확인했습니다

Grok 4.20 멀티에이전트가 정확히 뭔가

4에이전트와 16에이전트 비용 차이, 직접 계산했습니다

비용이 싸다는 말이 절반만 맞는 이유

OpenAI SDK로 그냥 붙이면 막히는 지점

같은 돈으로 GPT vs Grok, 직접 비교했습니다

실제 사용자들이 겪은 문제들

Q&A

마치며

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Grok 4.20 멀티에이전트, 4가지 수치로 직접 확인했습니다

Grok 4.20 멀티에이전트가 정확히 뭔가

4에이전트와 16에이전트 비용 차이, 직접 계산했습니다

비용이 싸다는 말이 절반만 맞는 이유

OpenAI SDK로 그냥 붙이면 막히는 지점

같은 돈으로 GPT vs Grok, 직접 비교했습니다

실제 사용자들이 겪은 문제들

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기