2026.03.29 기준 / Llama 4 Scout (2025.04 출시)
IT/AI

Llama 4 Scout 써봤습니다 — 10M 컨텍스트의 조건

결론부터 말씀드리면, Llama 4 Scout의 10M 토큰 컨텍스트 창은 Groq 무료 API에서 그대로 쓸 수 없습니다. 실제 제한은 131K입니다. Meta 공식 발표문과 각 API 공급사 제한 조건을 나란히 놓고 보니 마케팅 수치와 실사용 조건 사이의 간격이 꽤 컸습니다.

10M

공식 컨텍스트 창

131K

Groq 실제 제한

$0.17

입력 1M 토큰당

17B

활성 파라미터

Llama 4 Scout가 뭔지 30초로 정리

Meta가 2025년 4월 5일 공식 발표한 오픈웨이트 멀티모달 모델입니다. (출처: Meta AI 공식 블로그, 2025.04.05)

구체적으로는 활성 파라미터 17B, 총 파라미터 109B의 MoE(Mixture-of-Experts) 구조입니다. 전체 파라미터 중 실제 연산에 관여하는 것은 17B뿐이라는 뜻인데, 이게 가격과 속도에 직접 연결됩니다. Llama 3.3 70B보다 활성 파라미터가 적은데도 대부분의 벤치마크에서 앞선 이유가 여기 있습니다.

텍스트와 이미지를 동시에 입력받는 네이티브 멀티모달 모델이고, 가중치를 Hugging Face에서 직접 내려받을 수 있습니다. 상업적 이용도 Meta의 라이선스 조건 하에 가능합니다.

💡 공식 발표문과 실제 API 공급사 스펙을 같이 놓고 보니, 동일 모델 이름인데도 제공 환경마다 컨텍스트 한도가 달리 설정돼 있는 게 보였습니다.

▲ 목차로 돌아가기

MoE 구조 — 109B인데 왜 H100 한 장에 올라가나

보통 모델 크기가 클수록 GPU 메모리를 많이 씁니다. 그런데 Llama 4 Scout는 109B 전체 파라미터를 메모리에 올리되, 실제 추론 시 활성화하는 건 17B뿐입니다. 16개의 전문가(expert) 중 토큰마다 하나만 선택해서 연산합니다. (출처: Meta AI 공식 블로그)

Int4 양자화 기준 단일 NVIDIA H100(80GB)에 올라간다고 Meta가 공식 발표했습니다. H100 한 장 임대 비용이 시간당 약 $2~3 수준임을 생각하면, 기업 입장에서 자체 배포 비용이 GPT-4 수준 밀집 모델 대비 훨씬 낮다는 뜻입니다.

항목	Llama 4 Scout	Llama 4 Maverick	Llama 3.3 70B
총 파라미터	109B	400B	70B
활성 파라미터	17B	17B	70B (밀집)
전문가 수	16	128	—
공식 컨텍스트 창	10M 토큰	1M 토큰	128K 토큰
단일 H100 배포 여부	✅ 가능	✅ 가능 (단일 호스트)	멀티 GPU 필요

출처: Meta AI 공식 블로그 (2025.04.05), llama.com 공식 스펙

▲ 목차로 돌아가기

10M 컨텍스트, 실제로 쓸 수 있는 플랫폼은 따로 있습니다

마케팅에서 가장 많이 강조되는 “10M 토큰 컨텍스트 창”은 모델 자체의 설계 한도이지, 모든 API 공급사에서 동일하게 제공되는 수치가 아닙니다.

가장 많이 쓰이는 무료 진입 경로인 Groq에서 Llama 4 Scout의 실제 최대 컨텍스트는 131,072 토큰(약 131K)입니다. 출시 직후 Reddit 사용자들이 Groq API에서 131K 이상을 넣으면 오류가 발생한다는 걸 실측으로 확인했고 (r/LocalLLaMA, 2025.04.07), Groq 공식 rate limit 문서에서도 TPM(분당 토큰) 제한을 30,000으로 명시하고 있습니다. (출처: Groq 공식 문서)

10M 토큰을 실제로 지원하는 환경은 모델을 직접 로컬에 배포하거나, Together AI 같은 유료 API 제공사 중 전체 컨텍스트를 열어둔 곳을 이용해야 합니다. 일반적으로 소설 한 권 분량이 약 100K~150K 토큰 수준이니, 131K 제한은 소설 한 권을 통째로 넣기도 빠듯한 크기입니다.

💡 “10M 컨텍스트 창”을 기대하고 Groq 무료 API를 선택했다면, 실제로는 Llama 3.3 70B의 128K와 거의 같은 조건에서 쓰게 됩니다. 플랫폼마다 지원 범위가 다른 부분을 미리 확인해야 합니다.

▲ 목차로 돌아가기

무료로 쓰는 방법 4가지와 각각의 실제 제한

Llama 4 Scout를 비용 없이 접근하는 방법이 여럿 있습니다. 문제는 각 경로마다 실제 작동 조건이 다르다는 점입니다.

Groq Cloud 무료 티어

분당 30회 요청(RPM), 하루 1,000회 요청(RPD), 분당 30K 토큰(TPM) 제한이 있습니다. 컨텍스트는 131K로 제한됩니다. 추론 속도는 초당 약 127 토큰으로 가장 빠른 편입니다. (출처: Groq 공식 rate limit 문서) — 빠르지만 짧게 쓸 때 적합합니다.

Meta AI 웹/앱 (meta.ai)

Llama 4 기반으로 서비스하며, WhatsApp·Instagram·Messenger에서도 접근 가능합니다. 단, 이 환경은 개발자 API가 아닌 소비자용 인터페이스여서 파라미터 제어가 안 됩니다. — 직접 API 호출이 아닌 대화형 사용에만 적합합니다.

OpenRouter 무료 라우팅

Llama 4 Scout를 포함한 다수 모델을 하나의 엔드포인트로 묶어 제공합니다. 무료 라우팅은 요청이 몰릴 때 속도가 낮아지고, 무료 tier 모델은 요청 대기열에서 후순위를 받습니다. — 토큰 비용 없이 테스트 용도로 쓸 때 편리합니다.

Hugging Face 다운로드 후 로컬 실행

가중치를 직접 받아 실행합니다. Int4 양자화 기준 단일 H100(80GB) 필요합니다. 일반 소비자용 GPU로는 실행 자체가 어렵습니다. (예: RTX 4090 24GB는 부족) — 10M 컨텍스트를 완전히 활용하려면 이 방법이 유일합니다만, 하드웨어 비용이 전제됩니다.

▲ 목차로 돌아가기

벤치마크 1위가 실제 배포 버전과 달랐습니다

출시 당시 LMArena(Chatbot Arena) 리더보드에서 Llama 4 Maverick의 experimental chat 버전이 ELO 1417을 기록하며 GPT-4o를 앞섰습니다. 그런데 사용자들이 이상하다고 지적하기 시작했습니다.

LMArena 측이 직접 공식 clarification을 내놨는데, 아레나에서 평가받은 버전은 (a) 공개 출시된 Scout나 Maverick 가중치가 아닌 별도 버전이고, (b) 인간 선호도에 맞춰 추가로 튜닝된 “실험적 채팅 버전”이라는 점을 인정했습니다. (출처: TechShots, 2025.04.07 / LMArena 공식 X 계정)

쉽게 말하면, Hugging Face에서 내려받거나 Groq에서 호출하는 모델과 벤치마크에 제출된 모델이 같지 않았습니다. Meta는 이를 “cheating”이 아닌 “인간 선호도 최적화”로 표현했지만, 공개 발표된 수치를 그대로 믿고 모델을 선택하기 전에 이 맥락을 알고 있어야 합니다.

💡 공개 리더보드 순위와 실제 API로 받는 모델이 동일하지 않을 수 있다는 점은 Llama 4만의 문제가 아닙니다. 다만 이번 케이스는 Meta와 LMArena 양측이 공식적으로 인정한 사례라는 점에서 수치를 해석할 때 맥락을 따져봐야 한다는 걸 다시 생각하게 했습니다.

▲ 목차로 돌아가기

GPT-4.1 API 대비 비용, 직접 계산해봤습니다

API를 유료로 쓸 때 Llama 4 Scout가 실제로 얼마나 저렴한지 수치로 비교합니다. Artificial Analysis 실측 기준으로 Llama 4 Scout의 유료 API 가격은 입력 $0.17/1M 토큰, 출력 $0.66/1M 토큰입니다. (출처: Artificial Analysis, 2026.03 기준)

OpenAI GPT-4.1 API는 입력 $2.00/1M 토큰, 출력 $8.00/1M 토큰입니다. (출처: OpenAI 공식 pricing 페이지) 입력 토큰 기준으로만 비교하면 Llama 4 Scout가 약 11.8배 저렴합니다.

📊 실제 비용 예시 계산 (입력 10M 토큰 기준)

Llama 4 Scout (유료 API): 10 × $0.17 = $1.70

GPT-4.1 API: 10 × $2.00 = $20.00

Claude Sonnet 4.6 API (참고): 입력 $3.00/1M 기준 → 10 × $3.00 = $30.00

※ 위 수치는 공개 API 가격 기준이며, 실제 서비스 환경의 blended 입출력 비율에 따라 달라집니다.

단순 비용만 보면 매력적입니다. 다만 Artificial Analysis가 실제 Intelligence Index 평가를 돌렸을 때 Llama 4 Scout는 다른 모델 평균 대비 약 2배 많은 토큰을 출력했습니다. (평균 3.8M 토큰 대비 7.3M 토큰 생성) 출력 토큰 비용은 입력보다 비싸기 때문에, 실제 비용은 단순 입력 단가 비교보다 높게 나올 수 있습니다. 응답이 장황해지는 경향이 있다는 뜻인데, 이건 프롬프트로 조절이 가능하지만 기본값 그대로 쓰면 비용이 예상보다 많이 나올 수 있습니다.

💡 Groq에서의 무료 API 속도(~127 tokens/sec)와 유료 API의 저렴한 단가를 같이 보면, Llama 4 Scout는 고비용 프리미엄 모델의 대안이 아니라 빠른 응답이 필요한 가벼운 작업에 가장 잘 맞는 포지션입니다.

▲ 목차로 돌아가기

자주 나오는 질문 5개

Q1. Llama 4 Scout는 한국어를 잘 처리하나요?

Meta 공식 발표에 따르면 100개 이상의 언어를 각 언어당 10억 토큰 이상으로 학습했습니다. 한국어가 포함되지만, Llama 3 계열 대비 한국어 처리 성능에 대한 공식 별도 수치는 Meta가 공개하지 않은 부분입니다. 실사용 후기에서는 한국어 대화 품질이 GPT-4o 수준에는 미치지 못한다는 평이 많습니다.

Q2. Groq 무료 tier에서 하루에 얼마나 쓸 수 있나요?

Groq 공식 문서 기준, Developer plan 무료 tier에서 Llama 4 Scout는 하루 1,000회 요청(RPD), 분당 30K 토큰(TPM), 하루 총 500K 토큰(TPD)입니다. 일반 대화 기준으로 요청당 500토큰을 가정하면 하루 1,000회 요청 한도에 먼저 걸립니다. 가벼운 테스트 용도로는 충분하지만, 프로덕션 워크로드에서는 유료 플랜이 필요합니다.

Q3. Llama 4 Scout와 Maverick 중 어떤 걸 써야 하나요?

비용과 속도 중심이면 Scout, 복잡한 추론이나 창작이 목적이면 Maverick이 낫습니다. 두 모델 모두 활성 파라미터는 동일한 17B이지만, Maverick은 전문가 수가 128개로 8배 많아 태스크별 전문화 수준이 높습니다. 비용 차이는 API 공급사마다 다르지만, 일반적으로 Maverick이 2~3배 더 비쌉니다.

Q4. 10M 컨텍스트를 실제로 완전히 쓰려면 어떤 환경이 필요한가요?

모델을 직접 로컬 배포하는 경우, Int4 양자화 기준 단일 H100(80GB) GPU가 필요합니다. 클라우드 API에서 10M 컨텍스트 전체를 지원하는 공급사는 현재(2026.03 기준) 제한적이며, 요청당 메모리 비용이 높아 제공 자체를 제한하는 곳이 대부분입니다. Together AI, Fireworks AI 등에서 긴 컨텍스트 지원 여부를 각각 확인해야 합니다.

Q5. Llama 4 Scout의 학습 데이터 컷오프는 언제인가요?

공식 발표에서 Meta가 학습 데이터 컷오프를 별도로 명시하지 않았습니다. 다만 여러 연구자들이 모델 응답을 기반으로 2024년 8월 전후로 추정하고 있습니다. (출처: The Unwind AI, 2025.04.08) 최신 이벤트가 반영되지 않을 수 있으므로, 2024년 하반기 이후 사건을 다루는 작업에서는 주의가 필요합니다.

▲ 목차로 돌아가기

마치며

Llama 4 Scout는 분명히 잘 만들어진 모델입니다. MoE 구조 덕분에 비용 대비 추론 능력이 좋고, Groq에서의 추론 속도(약 127 tokens/sec)는 실제로 빠릅니다. 오픈웨이트라는 것도 장점입니다.

그런데 “10M 컨텍스트 창”과 “벤치마크 1위”라는 두 숫자는 실제로 접근해보면 조건이 붙습니다. 10M은 로컬 배포나 특정 유료 API에서만 쓸 수 있고, 벤치마크 1위는 공개 가중치와 다른 버전으로 측정된 수치였습니다.

개인적으로는, 빠른 프로토타이핑과 비용 민감한 API 연동 프로젝트에서 GPT-4.1 대신 써볼 만한 현실적인 대안이라는 결론입니다. 단, 긴 문서 전체를 한 번에 처리하는 작업이라면, 쓰려는 플랫폼에서 실제로 지원하는 컨텍스트 길이를 먼저 확인하고 시작하는 편이 낫습니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

Meta AI 공식 블로그 — “The Llama 4 herd: The beginning of a new era of natively multimodal AI” (ai.meta.com, 2025.04.05)
Groq 공식 rate limits 문서 (console.groq.com/docs/rate-limits)
Artificial Analysis — Llama 4 Scout 모델 스펙 및 비용 측정 (artificialanalysis.ai, 2026.03 기준)
Maxim Saplin — “Llama 4 – 10M Context? Coding? Decent Follow-up?” (dev.to, 2025.04.08)
TechShots — “Meta’s Use of Custom Llama 4 Variant Raises AI Benchmark Integrity Concerns” (techshotsapp.com, 2025.04.07)
Meta 공식 Llama 4 스펙 페이지 (llama.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 요금 및 rate limit 수치는 2026년 3월 29일 기준이며, 각 공급사 정책에 따라 언제든 바뀔 수 있습니다. 투자·개발 판단은 반드시 공식 문서를 재확인 후 진행하시기 바랍니다.

Llama 4 Scout 써봤습니다 — 10M 컨텍스트의 조건

Llama 4 Scout가 뭔지 30초로 정리

MoE 구조 — 109B인데 왜 H100 한 장에 올라가나

10M 컨텍스트, 실제로 쓸 수 있는 플랫폼은 따로 있습니다

무료로 쓰는 방법 4가지와 각각의 실제 제한

벤치마크 1위가 실제 배포 버전과 달랐습니다

GPT-4.1 API 대비 비용, 직접 계산해봤습니다

자주 나오는 질문 5개

마치며

📎 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Llama 4 Scout 써봤습니다 — 10M 컨텍스트의 조건

Llama 4 Scout가 뭔지 30초로 정리

MoE 구조 — 109B인데 왜 H100 한 장에 올라가나

10M 컨텍스트, 실제로 쓸 수 있는 플랫폼은 따로 있습니다

무료로 쓰는 방법 4가지와 각각의 실제 제한

벤치마크 1위가 실제 배포 버전과 달랐습니다

GPT-4.1 API 대비 비용, 직접 계산해봤습니다

자주 나오는 질문 5개

마치며

📎 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기