mistral-small-2603
Apache 2.0
Mistral Small 4, 119B인데 왜 Small일까요?
결론부터 말씀드리면, 119B는 총 파라미터 수이고 실제로 한 번 추론할 때 활성화되는 파라미터는 6.5B입니다. 이 구조 하나를 이해하면 “왜 Small이라 부르는지”, “왜 RTX 5090(32GB VRAM)으로도 못 돌리는지”가 한꺼번에 풀립니다. 이 글은 공식 발표문과 실제 커뮤니티 반응을 같이 놓고 보면서 정리한 내용입니다.
119B인데 왜 6.5B가 실제 성능을 결정할까요?
Mistral Small 4의 공식 모델명은 mistral-small-2603이고, 2026년 3월 16일 공식 발표됐습니다. 총 파라미터 수는 119B이지만, MoE(Mixture of Experts) 아키텍처를 채택해 매 토큰 추론 시 128개 전문가(expert) 중 4개만 활성화됩니다. 이 구조에서 실제로 작동하는 파라미터는 임베딩·출력 레이어 포함 6.5B, 임베딩 제외 기준으로는 6B입니다. (출처: Mistral AI 공식 발표, 2026.03.16)
“Small”이라는 이름은 파라미터 총량이 아니라 활성 파라미터 기준의 추론 비용에서 붙여진 겁니다. 6.5B를 굴리는 연산량이니 응답 속도는 빠르고, API 요금도 낮게 책정할 수 있습니다. 같은 논리로 이전 버전인 Mistral Large도 출시 당시 총 파라미터가 120B Dense(밀집형)였던 것과 비교하면, 오히려 Small 4가 추론 비용 면에서는 훨씬 가볍습니다.
그런데 여기서 첫 번째 함정이 있습니다. 총 119B를 메모리에 올려야 하기 때문에, 실제 구동에 필요한 RAM·VRAM은 6.5B짜리 모델과 전혀 다릅니다. 이 부분은 섹션 5에서 자세히 다룹니다.
💡 공식 발표문의 수치와 실제 구동 환경을 같이 놓고 보면 이런 차이가 있습니다
총 119B / 활성 6.5B 구조는 “빠른 응답”과 “높은 메모리 요구”를 동시에 의미합니다. 클라우드 API로 쓸 때는 활성 파라미터 기준으로 비용이 책정되고, 로컬 구동 시에는 전체 119B를 올려야 하는 물리 메모리가 필요합니다.
세 개 모델을 하나로 — 통합의 진짜 의미
Mistral Small 4 이전까지 Mistral AI의 주력 모델군은 크게 셋으로 나뉘어 있었습니다. 일반 지시 모델인 Mistral Small 계열, 추론 특화 모델인 Magistral, 코딩 에이전트 특화인 Devstral이 각각 존재했고, 작업 유형에 따라 모델을 골라 써야 했습니다. (출처: Mistral AI 공식 발표, 2026.03.16)
Small 4는 이 세 가지를 단일 모델로 통합했습니다. 텍스트와 이미지 입력을 동시에 받을 수 있는 멀티모달 지원, 추론 심화 모드(reasoning_effort="high")로 수학·코딩 문제 대응, 그리고 코딩 에이전트 기능(함수 호출, JSON 출력)이 하나의 모델에서 동작합니다. 컨텍스트 창은 256K 토큰으로 이전 소형 모델 대비 크게 늘었고, 한국어를 포함한 다국어도 공식 지원합니다. (출처: Hugging Face 모델 카드, 2026.03.16)
라이선스는 Apache 2.0입니다. 상업적 활용, 파인튜닝, 재배포가 모두 허용됩니다. 오픈소스 모델 중 기업 환경에서 가장 관용적인 라이선스 중 하나이고, 이 점은 GPT 계열 상용 API나 중국산 모델을 꺼리는 기업 환경에서 실질적인 선택지가 됩니다.
reasoning_effort 설정 안 하면 그냥 Small 3.2입니다
이 부분이 가장 중요한데, 기존 블로그에서 잘 짚지 않는 포인트입니다. Mistral 공식 Hugging Face 모델 카드에 다음과 같이 명시돼 있습니다.
“
reasoning_effort="none": Fast, lightweight responses for everyday tasks, equivalent to the same chat style of Mistral-Small-3.2-24B-Instruct-2506.”(출처: Hugging Face mistralai/Mistral-Small-4-119B-2603 모델 카드, 2026.03.16)
즉, reasoning_effort 파라미터를 명시적으로 설정하지 않으면 Small 4의 성능은 Small 3.2(24B Dense 모델)와 동일합니다. 119B MoE를 구동하면서 24B Dense 모델의 답변을 받는 셈입니다. API로 쓸 때는 비용이 같고 속도도 비슷하니 체감 차이가 없습니다. 하지만 로컬 구동이라면 Small 3.2(약 15GB)를 쓰는 것과 비교해 Small 4(72GB 이상)를 올려놓고 같은 결과를 받게 되는 상황이 생깁니다.
reasoning_effort="high"로 설정해야 비로소 Magistral과 동등한 심층 추론 성능이 나옵니다. 이 모드에서는 GPQA Diamond 기준 71.2점, MMLU-Pro 78.0점, LiveCodeBench 63.6점이 나옵니다. (출처: Hugging Face 모델 카드 벤치마크 섹션, 2026.03.16)
⚠️ API 연동 시 확인 필요
OpenAI 호환 API 형식으로 호출할 때 reasoning_effort 파라미터를 명시하지 않으면 기본값("none")이 적용됩니다. 복잡한 수학·코딩 과제에서 Small 4를 쓰는데 Small 3.2 수준의 답변만 받고 있다면 이 파라미터 누락이 원인일 가능성이 높습니다. 현재 vLLM PR(#37081)에 해당 파싱 수정이 포함돼 있으며, 2026년 3월 기준 아직 메인 브랜치 미병합 상태입니다. (확인 필요: vLLM GitHub, 2026.03.16 기준)
API 요금은 싸지만, 벤치마크 순위는 Qwen 아래입니다
Mistral 공식 API와 OpenRouter 기준 Small 4의 요금은 입력 토큰 100만 개당 $0.15, 출력 토큰 100만 개당 $0.60입니다. (출처: OpenRouter mistralai/mistral-small-2603, 2026.03.20 기준)
| 모델 | 입력 (1M) | 출력 (1M) | GPQA Diamond | LiveCodeBench |
|---|---|---|---|---|
| Mistral Small 4 (추론) | $0.15 | $0.60 | 71.2 | 63.6 |
| Qwen3.5-35B-A3B | 약 $0.10 | 약 $0.40 | 84.2 | 74.6 |
| Qwen3.5-122B-A10B | 약 $0.25 | 약 $1.00 | ~90+ | ~80+ |
※ Qwen 요금은 공개된 여러 제공자 기준 추정치이며, 제공자에 따라 다를 수 있습니다. Mistral Small 4 공식 요금 출처: OpenRouter/Mistral API (2026.03.20 기준)
수치로 보면 Small 4는 Qwen3.5-35B-A3B보다 점수가 낮고 요금도 비쌉니다. 그런데 Mistral이 강조하는 포인트는 다른 곳에 있습니다. 같은 정답에 도달하기 위해 생성하는 토큰 수가 3.5~4배 짧다는 점입니다. 공식 발표에 따르면 AA LCR 벤치마크에서 Small 4는 0.72점을 1,600자로 달성했고, Qwen 모델들은 같은 점수대에서 5,800~6,100자를 생성했습니다. (출처: Mistral AI 공식 발표, 2026.03.16)
이게 실제 비용에서 의미하는 바는 이렇습니다. 출력 토큰이 4배 짧다면 출력 비용 역산 시 $0.60 × 1/4 = 사실상 $0.15 수준으로 떨어집니다. 반면 Qwen3.5-35B는 출력 $0.40이지만 출력량이 많으면 실제 청구 금액이 커집니다. 긴 추론 체인이 필요한 작업에서는 Small 4가 오히려 비용 효율적인 구조가 될 수 있습니다. 단, 이 효율이 의미 있으려면 reasoning_effort="high"를 켜야 한다는 전제가 붙습니다.
💡 벤치마크 점수와 실제 API 비용을 같이 계산해보니 이런 구조였습니다
출력 토큰이 4배 짧다 = 출력 비용이 4배 낮다. 점수 비교표만 보면 Qwen이 앞서 보이지만, 같은 작업의 총 비용을 계산하면 Small 4가 경쟁력 있는 구간이 생깁니다. 특히 긴 추론 결과를 요구하는 에이전트 워크플로우에서 이 차이가 드러납니다.
로컬 구동, 생각보다 높은 벽이 있습니다
MoE 구조라 6.5B만 쓴다고 해서 메모리가 6.5B 모델 수준이면 된다고 오해하기 쉽습니다. 실제로는 다릅니다. 128개 전문가 전체를 미리 메모리에 올려놔야 라우팅이 작동합니다. 공식 발표 기준으로 최소 실행 환경은 NVIDIA HGX H100 4장, HGX H200 2장, 또는 DGX B200 1대입니다. (출처: Mistral AI 공식 발표, 2026.03.16)
Unsloth GGUF 기준 필요 메모리는 다음과 같습니다. 4비트 Q4_K_M 양자화가 약 72.2GB, 6비트 Q6_K가 97.7GB, 8비트 Q8_0이 126GB입니다. RTX 5090의 VRAM은 32GB입니다. Q4_K_M 기준으로도 72GB가 넘으므로 RTX 5090 단독으로는 구동이 불가합니다. (출처: Reddit r/MistralAI, SexyMuon 사용자 실측, 2026.03.16)
MoE 오프로드 방식으로 GPU VRAM에 어텐션 레이어를 올리고 전문가 가중치를 CPU RAM에 두면 GPU가 부족해도 실행이 가능합니다. 이 경우 192GB 시스템 RAM이 있는 환경에서 초당 10~20 토큰 정도를 기대할 수 있습니다. (출처: Reddit r/LocalLLaMA, 2026.03.16) 다만 이는 실험적 구성이고 속도는 크게 떨어집니다.
⚠️ vLLM 설치 현황 (2026.03.16 기준)
공식 vLLM 메인 브랜치에 Small 4 지원 PR(#37081)이 아직 미병합 상태입니다. 현재는 Mistral이 제공하는 커스텀 Docker 이미지(mistralllm/vllm-ms4:latest)를 써야 합니다. PR 병합은 1~2주 내 예상됩니다. (출처: Hugging Face 모델 카드, 2026.03.16) — 단, 정확한 병합 일정은 확인 필요.
실제로 어떤 경우에 쓸 만할까요?
써봤을 때 가장 잘 맞는 케이스는 세 가지입니다. 첫째는 Apache 2.0 라이선스가 필수인 상업 환경입니다. 중국산 모델 사용이 어려운 기업이나, GPT 계열 API를 피하려는 EU 규정 준수 환경에서 Magistral+Devstral+비전을 하나의 모델로 대체할 수 있습니다.
둘째는 에이전트 워크플로우에서 다단계 추론이 필요한 경우입니다. 함수 호출, JSON 출력, 이미지 파싱, 수학 추론을 단일 모델로 처리해야 할 때 여러 모델을 오케스트레이션하는 비용과 복잡성을 줄일 수 있습니다. Mistral의 공식 발표에서도 이 부분을 핵심으로 제시하고 있습니다.
셋째는 파인튜닝이 필요한 특수 도메인 적용입니다. Apache 2.0으로 파인튜닝한 모델을 상업 제품에 넣을 수 있습니다. Axolotl 기반 파인튜닝이 공식 지원되고, NVIDIA NeMo를 통한 도메인 특화 커스터마이징도 가능합니다. (출처: Hugging Face 모델 카드, 2026.03.16)
반면 순수 벤치마크 성능이 최우선이라면 Qwen3.5 계열이 현재 우위에 있습니다. 이미지 관련 태스크에서도 실제 사용자 피드백 중 “Small 3.2보다 나빠진 경우도 있다”는 보고가 있습니다. (출처: Reddit r/LocalLLaMA, Federal-Effective879, 2026.03.16) — 개인 사용 환경에 따라 다를 수 있으며, 출시 직후라 추가 검증이 필요한 상태입니다.
💡 모델 선택 기준을 거꾸로 잡아보면 이런 그림이 나옵니다
벤치마크 1위 모델을 찾는다면 Small 4는 아닙니다. 하지만 Apache 2.0 라이선스 + 단일 모델로 추론·코딩·비전 통합 + 출력 토큰 효율 이 세 가지가 동시에 중요한 시나리오라면, 현재 오픈소스 모델 중 대안이 많지 않습니다.
자주 나오는 질문들
마치며
Mistral Small 4는 “Small”이라는 이름이 마케팅인지 기술 용어인지 헷갈리게 하는 모델입니다. 총 119B지만 활성 파라미터 기준 6.5B, 그 덕분에 API 요금이 낮고 응답이 빠르다는 건 사실입니다. 동시에 로컬 구동엔 72GB RAM이 필요하고, 성능을 제대로 끌어내려면 reasoning_effort="high" 설정이 필수입니다.
솔직히 말하면, 벤치마크 숫자만 놓고 보면 Qwen3.5 계열이 현재 더 앞서 있습니다. 하지만 Apache 2.0 라이선스로 추론·코딩·비전을 단일 모델에서 처리해야 하는 기업 환경이라면, 이 조합은 오픈소스 생태계에서 아직 드문 선택지입니다. 출시 4일 차인 지금 시점(2026.03.20 기준)에는 vLLM 메인 미병합, 이미지 성능 논란 등 불확실한 부분이 있어서, 프로덕션 적용 전 직접 테스트를 거치는 것이 맞습니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 20일 기준으로 작성됐으며, Mistral Small 4(mistral-small-2603) 모델 기준입니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 실제 적용 전 공식 문서를 반드시 확인하시기 바랍니다.


댓글 남기기