Llama 4 Scout, 수치 3개로 10M 컨텍스트 직접 따져봤습니다
“업계 최초 1,000만 토큰 컨텍스트”라는 발표를 들으면 솔직히 눈이 확 가죠. 근데 막상 독립 테스트 결과를 같이 놓고 보면 그림이 좀 달라집니다. Llama 4 Scout가 실제로 어디서 강하고 어디서 무너지는지, 세 가지 수치로 정리했습니다.
Llama 4 Scout가 뭔지 먼저 짚고 넘어가겠습니다
2025년 4월 5일, 메타(Meta)가 오픈웨이트 멀티모달 모델 Llama 4 Scout를 공개했습니다. 공식 명칭은 Llama 4 Scout 17B-16E-Instruct이며, 여기서 17B는 활성 파라미터 수, 16E는 전문가(Expert) 수를 의미합니다.
총 파라미터는 1,090억 개지만, 실제 추론 시에는 170억 개만 활성화됩니다. 이 구조가 바로 MoE(Mixture of Experts)입니다. 메타의 Llama 시리즈에 MoE 아키텍처가 도입된 건 이번이 처음이에요. (출처: Meta AI 공식 블로그, 2025.04.05)
출시 스펙 핵심만 정리
| 항목 | 수치 |
|---|---|
| 활성 파라미터 | 약 170억 개 |
| 총 파라미터 | 1,090억 개 |
| 전문가 수 | 16개 (1개 공유 + 라우팅) |
| 컨텍스트 창 | 최대 1,000만 토큰 |
| 사전 학습 컨텍스트 | 256K 토큰 |
| 단일 GPU 실행 가능 | NVIDIA H100 1개 (INT4 양자화 기준) |
| 학습 데이터 | 30조 토큰 이상 (Llama 3의 2배 이상) |
Llama 3의 컨텍스트 창이 128K 토큰이었던 것과 비교하면 약 78배 늘어난 수치입니다. 수치만 보면 인상적이죠. 근데 이 숫자 뒤에 숨겨진 조건이 있습니다.
10M 토큰 컨텍스트, 숫자로는 맞는데 실제론 다릅니다
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
메타는 사전 학습을 256K 컨텍스트로 진행하고, 10M 컨텍스트는 이후 “mid-training” 단계에서 추가 확장했습니다. 이 구조가 실제 성능에 어떤 의미인지가 핵심입니다.
메타 공식 블로그에는 이렇게 나와 있습니다. “우리는 256K 컨텍스트 길이로 사전 학습과 사후 학습을 진행했으며, mid-training을 통해 10M 입력 컨텍스트 길이를 잠금 해제했습니다.” (출처: Meta AI 공식 블로그, 2025.04.05)
핵심은 ‘잠금 해제(unlock)’라는 표현입니다. 기본 훈련은 256K 기준이고, 10M은 추가 단계에서 범위를 늘린 구조입니다. 그래서 Fiction.live의 장문 이해 테스트에서 나온 수치가 중요해집니다.
120K 토큰 기준 장문 이해 정확도 비교
| 모델 | 120K 토큰 정확도 |
|---|---|
| Gemini 2.5 Pro | 90.6% |
| Llama 4 Maverick | 28.1% |
| Llama 4 Scout | 15.6% |
출처: Fiction.live 장문 이해 벤치마크 (2025.04.06)
Scout가 10M 토큰을 지원한다고 발표됐지만, 120K에서 이미 정확도가 15.6%로 내려앉습니다. 실질적인 복잡한 이해가 필요한 작업에서는 훨씬 더 좁은 구간에서 쓰는 것이 현명합니다.
다만 이 테스트는 다중 레이어 서사 이해와 캐릭터 지식 추론처럼 고난도 작업 기준입니다. 단순 정보 검색(needle-in-a-haystack)과 복잡한 추론은 별개입니다. 용도에 따라 결론이 달라지는 부분이에요.
벤치마크 2위, 그런데 조건을 바꾸면 달라집니다
메타가 Llama 4 출시 때 내세운 수치 중 하나가 LMArena ELO 1417점으로 2위를 기록했다는 겁니다. 기대했던 것과 달랐던 건, 그 2위가 공개 배포된 버전이 아니었다는 점입니다.
LMArena 측이 공식 입장을 밝혔습니다. “Meta의 정책 해석은 우리가 모델 제공자에게 기대하는 것과 일치하지 않았다. Meta는 ‘Llama-4-Maverick-03-26-Experimental’이 대화 성능에 최적화된 커스텀 모델임을 더 명확하게 표시했어야 했다.” (출처: The Decoder, 2025.04.12 업데이트)
실제로 LMArena에서 Style Control(스타일 통제) 옵션을 켜면 — 응답 길이와 이모티콘 사용 등 발표 형식의 영향을 제거하는 방법입니다 — Maverick은 2위에서 5위로 밀립니다. Scout는 더 낮습니다.
수치로 따지면: Style Control 없을 때 Maverick ELO 1417 (2위) → Style Control 적용 시 ELO 1307 (5위). 점수 차이는 110점. 순위는 3계단 하락. (출처: LMArena 리더보드, 2025.04)
Artificial Analysis의 Intelligence Index에서는 Scout가 36점 → 43점으로 올랐는데, 이건 평가 기준을 바꾼 덕분입니다. 객관식 질문에서 “The best answer is A” 형태의 응답을 정답으로 인정하도록 채점 방식을 조정했습니다. (출처: The Decoder, 2025.04.12)
점수가 오른 게 아니라, 채점 방식이 달라진 겁니다. 모델이 실제로 더 똑똑해진 건 아니에요.
MoE 구조가 비용에서 어떤 차이를 만드는지
Llama 4 Scout의 아키텍처에서 실질적으로 가장 중요한 부분이 여기입니다. MoE 구조 덕분에 총 파라미터가 1,090억 개지만, 추론 시 활성 파라미터는 170억 개에 불과합니다. 이게 API 단가에 직접 영향을 줍니다.
API 단가 비교 (2025년 4월 기준 중간값)
| 모델 | 입력 ($/M) | 출력 ($/M) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| Llama 4 Maverick | $0.24 | $0.77 |
| Llama 4 Scout | $0.15 | $0.40 |
출처: Artificial Analysis, 2025.04.07 기준 중간값 / GPT-4o 가격은 OpenAI 공식 가격 기준
Scout 기준 입력 단가 $0.15/M은 GPT-4o($2.50/M) 대비 약 16.7배 저렴합니다. 토큰 10만 개를 하루 100번 처리한다고 단순 계산하면 하루 비용이 GPT-4o는 $25, Scout는 $1.50입니다.
💡 비용 관점에서 새롭게 보이는 것: NVIDIA H200 대비 NVIDIA Blackwell B200에서 TensorRT-LLM 적용 시 Scout의 처리 속도는 3.4배 빨라지고, 토큰당 비용 효율은 2.6배 개선됩니다. (출처: NVIDIA 공식 블로그, 2025.04.16) 이는 단가가 이미 낮은 상태에서 인프라 업그레이드만으로 운용 비용이 추가로 절반 수준으로 내려갈 수 있다는 의미입니다.
단, Vertex AI 같은 관리형 서비스에서는 할당량(RPM, 분당 요청 수) 제한이 별도로 존재합니다. 메타 공식 라이선스 동의도 필요하고요. (출처: Google Developers 블로그, 2025.04.29)
공식 발표문과 실제 배포 결과를 같이 보니 보인 것
💡 대부분의 리뷰가 스펙 숫자를 나열하는 수준에서 끝났는데, 발표 직후 배포 상황을 같이 보면 구조적인 문제가 드러납니다.
메타 생성형 AI 총괄 Ahmad Al-Dahle는 초기 성능 편차에 대해 이렇게 설명했습니다. “모델이 준비되는 대로 바로 공개했기 때문에 공개 구현들이 안정화되는 데 며칠 걸릴 것으로 예상합니다.” 즉, 각 플랫폼의 배포 최적화가 덜 된 상태에서 테스트가 이뤄졌다는 해명입니다. (출처: The Decoder, 2025.04.07)
여기서 생각보다 중요한 포인트가 있습니다. 오픈웨이트 모델은 배포 방식 자체가 성능 편차를 만듭니다. INT4 양자화 기준으로 H100 1개에서 돌리는 Scout와, FP8 기준으로 Blackwell 클러스터에서 돌리는 Scout는 같은 모델 가중치지만 실제 응답 품질이 다를 수 있습니다.
Llama 4 Maverick은 학습된 증류(Codistillation) 방식으로 Llama 4 Behemoth(활성 파라미터 2,880억 개, 총 약 2조 파라미터)를 교사 모델로 삼았습니다. Scout는 이 교사 모델 없이 직접 학습됐습니다. 공식 발표문에 Maverick의 코증류 과정은 설명되어 있지만, Scout의 품질 한계에 대한 설명은 Anthropic이나 구글 수준으로 투명하게 공개되지 않았습니다.
Scout vs Maverick 핵심 차이
| 항목 | Scout | Maverick |
|---|---|---|
| 전문가 수 | 16개 | 128개 |
| 총 파라미터 | 1,090억 개 | 4,000억 개 |
| 코증류 학습 | 미적용 | Behemoth 활용 |
| 컨텍스트 창 | 10M 토큰 | 1M 토큰 |
| API 입력 단가 | $0.15/M | $0.24/M |
컨텍스트 창은 Scout가 더 크지만 실제 장문 이해 정확도는 Maverick이 높습니다. 단가는 Scout가 저렴하지만 복잡한 추론 작업에서는 Maverick이 훨씬 나은 결과를 보여줍니다.
어떤 상황에서 써야 하고, 어떤 상황에선 피해야 할까
수치와 논란을 다 보고 나면 결국 이 질문으로 돌아옵니다. Scout가 실제로 유용한 상황이 있긴 합니다. 이 부분에 대한 판단이 현실적으로 가장 중요합니다.
Scout가 실제로 강점을 보이는 구간
- 단일 GPU 배포가 필요한 경우: H100 1개에서 INT4 양자화 기준으로 돌릴 수 있습니다. 소규모 팀이나 사이드 프로젝트 수준에서 LLM을 온프레미스로 운영할 때 현실적인 선택지입니다.
- 단순 정보 검색 범위 내 장문 처리: “이 코드베이스에서 X 함수가 어디 있어?” 수준의 리터럴 검색은 넓은 컨텍스트에서도 동작합니다. 논리를 결합하고 추론해야 하는 작업과 구분해서 쓰면 됩니다.
- 저비용 멀티모달 파이프라인: 이미지와 텍스트를 함께 처리해야 하는 초기 프로토타입 단계에서, GPT-4o의 10분의 1 수준 단가로 빠르게 테스트할 수 있습니다.
- 200개 이상의 언어 지원: Llama 4는 Llama 3 대비 10배 이상 많은 다국어 토큰으로 학습됐습니다. 영어 외 언어 처리가 중요한 서비스에서 가격 대비 성능이 경쟁력 있습니다. (출처: Meta AI 공식 블로그, 2025.04.05)
Scout 대신 다른 선택을 고려해야 할 구간
- 장문 문서에서 깊은 추론이 필요할 때: Fiction.live 테스트에서 확인됐듯이 120K 수준에서 이미 정확도가 크게 떨어집니다. 긴 법률 문서 분석, 소설 플롯 이해처럼 관계 추론이 필요한 작업은 Gemini 2.5 Pro 같은 대안을 먼저 검토하는 게 현실적입니다.
- 벤치마크 점수가 최우선인 프로덕션 환경: 실험 버전이 아닌 표준 모델 기준으로 LMArena에서 Maverick은 32위에 그쳤습니다. (출처: The Decoder, 2025.04.12) 배포 버전의 실제 성능은 발표 버전과 다를 수 있습니다.
- 로컬 실행이 목표인데 하드웨어가 제한적일 때: INT4 양자화 기준 H100 VRAM이 최소 76GB 수준 필요하다는 테스트 결과가 있습니다. (출처: 네이버 블로그 fstory97, 2025.04.09) 48GB VRAM 환경에서는 실행이 어렵습니다.
자주 묻는 질문
Llama 4 Scout는 무료로 사용할 수 있나요?
Llama.com과 Hugging Face에서 모델 가중치를 무료로 내려받을 수 있습니다. 단, Llama 커뮤니티 라이선스 동의가 필요하고, 월 활성 사용자 7억 명 초과 서비스는 별도 라이선스를 메타에서 받아야 합니다. Vertex AI, AWS Bedrock 같은 관리형 API는 토큰 단위로 비용이 발생합니다. (출처: Meta AI 공식 블로그, 2025.04.05)
10M 토큰 컨텍스트 창이 실제로 쓸모가 있나요?
단순 키워드 검색 수준에서는 넓은 컨텍스트가 유용할 수 있습니다. 하지만 복잡한 추론과 관계 이해가 필요한 작업에서는 120K에서 이미 정확도가 크게 떨어집니다. Fiction.live 테스트 기준 120K에서 15.6% 정확도가 나왔습니다. 실질적인 심층 이해 작업이라면 32K~64K 구간에서 쓰는 것을 권장합니다.
Llama 4 Scout와 Maverick 중 어떤 걸 선택해야 하나요?
비용 우선이라면 Scout($0.15/M 입력), 복잡한 추론·이미지 이해가 중요하다면 Maverick($0.24/M 입력)이 더 낫습니다. Scout는 단일 H100 GPU에서 돌릴 수 있어 배포 난이도가 낮고, Maverick은 128개 전문가와 코증류 학습으로 실제 성능이 상당히 차이 납니다.
벤치마크 조작 논란은 어떻게 됐나요?
메타는 공식적으로 조작을 부인했습니다. 다만 LMArena에서 사용한 버전이 공개 배포 버전과 다른 “대화 최적화 실험 버전”이었음은 인정했습니다. LMArena 측도 메타가 정책을 위반했다고 공식 입장을 냈고, 이후 리더보드 정책을 강화했습니다. 표준 버전 Maverick은 이후 LMArena 32위를 기록했습니다. (출처: The Decoder, 2025.04.12)
로컬에서 직접 돌리려면 어떤 하드웨어가 필요한가요?
INT4 양자화 기준 4K 컨텍스트에서 약 76.2GB VRAM이 필요하다는 테스트 결과가 있습니다. 이는 NVIDIA H100 단일 GPU(80GB VRAM) 기준입니다. 48GB VRAM으로는 실행이 어렵습니다. CPU 전용으로 돌릴 경우 최소 20GB RAM과 35GB 디스크 공간이 필요하지만 처리 속도는 초당 약 1토큰 수준으로 실용적인 수준은 아닙니다.
마치며 — 숫자가 크다고 다 좋은 건 아닙니다
Llama 4 Scout의 1,000만 토큰 컨텍스트는 분명히 기술적 성취입니다. Llama 3의 128K에서 78배 늘어난 수치가 실제로 가능하다는 사실은 오픈웨이트 AI 생태계의 진전을 보여줍니다.
하지만 120K에서 정확도 15.6%, 벤치마크 조건 변경 시 2위→5위, 로컬 실행에 76GB VRAM 필요 — 이 세 가지 수치를 같이 놓고 보면 사용 전략이 달라집니다. 저비용 멀티모달 프로토타입이나 단일 GPU 배포가 목적이라면 Scout는 충분히 합리적인 선택입니다. 장문 추론이 핵심이라면 지금 당장은 다른 대안이 현실적입니다.
Llama 4 Behemoth가 완전히 공개되고 Scout와 Maverick의 후속 업데이트가 나오면 이 그림은 또 달라질 겁니다. 지금 이 시점의 판단 기준으로만 쓰시면 됩니다.
본 포스팅 참고 자료
- Meta AI 공식 블로그 — The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation (2025.04.05) — https://ai.meta.com/blog/llama-4-multimodal-intelligence/
- Google Developers 블로그 — Vertex AI에서 MaaS로 Llama 4 공식 버전 발표 (2025.04.29) — https://developers.googleblog.com/ko/llama-4-ga-maas-vertex-ai/
- NVIDIA 공식 블로그 — Meta Llama 4 Scout 및 Maverick에서의 추론 가속화 (2025.04.16) — https://developer.nvidia.com/ko-kr/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/
- The Decoder — Meta’s Llama 4 models show promise on standard tests, but struggle with long-context tasks (2025.04.12 업데이트) — https://the-decoder.com/metas-llama-4-models-show-promise-on-standard-tests-but-struggle-with-long-context-tasks/
- GeekNews — Meta, AI 벤치마크 조작 논란 — https://news.hada.io/topic?id=20229
※ 본 포스팅은 2025년 4월 기준 공개된 정보를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Meta, NVIDIA, Google Cloud의 가격 및 사양은 각 공식 페이지에서 최신 정보를 확인하시기 바랍니다. 본 포스팅은 투자 또는 구매 권고를 목적으로 하지 않습니다.











댓글 남기기