Mistral Small 4 · 2603 버전
Apache 2.0 오픈소스
Mistral Small 4, 119B인데 실제로 쓰는 건 6.5B입니다
이름에 ‘Small’이 붙어 있어서 가볍게 쓸 수 있는 모델이라고 생각했습니다. 총 파라미터는 119B짜리입니다. 그런데 막상 추론할 때 활성화되는 건 6.5B뿐입니다. MoE 구조의 역설이고, 이게 비용·속도·로컬 실행 가능 여부에 전부 영향을 줍니다.
‘Small’인데 왜 119B? — MoE 구조부터 이해해야 합니다
Mistral Small 4는 2026년 3월 16일 공개됐습니다. 이름만 보면 가벼운 모델 같지만 총 파라미터가 119B입니다. 흔히 ‘소형’으로 분류하는 7B·13B 모델과는 규모가 완전히 다릅니다. 그러나 실제로 추론 한 번에 활성화되는 파라미터는 6.5B뿐입니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)
이게 MoE(Mixture of Experts) 구조의 핵심입니다. 128개의 전문가 모듈(expert)이 있고, 토큰 하나가 들어올 때마다 그 중 4개만 골라서 계산합니다. 전체를 다 켜는 dense 모델과 달리 전력과 메모리를 훨씬 적게 씁니다. 6.5B만 활성화되니 응답 속도는 실제 7B급 모델과 비슷하게 느껴집니다.
여기서 한 가지 짚어야 할 게 있습니다. 로컬에서 이 모델을 돌리려면 119B 전체를 메모리에 올려야 합니다. 추론 때 6.5B만 쓴다는 건 맞지만, 나머지 전문가들도 대기 상태로 탑재돼 있어야 하거든요. 즉 속도는 가볍고 메모리 요구량은 무겁습니다. 이 부분이 많은 사람이 놓치는 지점입니다.
💡 총 파라미터(119B)와 활성 파라미터(6.5B)를 혼동하면 로컬 실행 계획이 처음부터 틀립니다. 속도 기준으로 모델을 고른다면 활성 파라미터를, VRAM 계획을 세운다면 총 파라미터를 봐야 합니다.
reasoning_effort 파라미터 — 이 값 하나로 모델이 3개처럼 동작합니다
Mistral Small 4가 이전 모델들과 가장 크게 다른 부분입니다. API 요청 때 reasoning_effort 파라미터 값 하나를 바꾸는 것만으로 세 가지 다른 모드로 작동합니다. reasoning_effort="none"으로 설정하면 Mistral Small 3.2와 같은 빠른 응답 모드로 동작하고, reasoning_effort="high"로 설정하면 기존 Magistral 모델 수준의 심층 추론 모드로 전환됩니다. (출처: Mistral AI 공식 발표, 2026.03.16)
공식 문서에서 중요하게 언급하는 게 있는데, 모드별로 권장 temperature 값이 다릅니다. reasoning_effort="none"일 때는 temperature를 0.0~0.7 사이로, reasoning_effort="high"일 때는 반드시 0.7로 맞춰야 합니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)
reasoning_effort 조정 없이 기본값을 그대로 쓰면서 “추론이 왜 이렇게 얕지?” 하는 경우가 나올 수 있습니다. temperature 설정도 같이 안 바꾸면 복잡한 수학·코딩 문제에서 기대한 것보다 훨씬 짧고 얕은 답이 나옵니다. 파라미터 조합을 공식 문서 그대로 적용하는 게 중요합니다.
📌 모드별 설정 정리 (공식 권장값 기준)
| 모드 | reasoning_effort | temperature | 동작 수준 |
|---|---|---|---|
| 빠른 응답 | none |
0.0 ~ 0.7 | Small 3.2 수준 |
| 심층 추론 | high |
0.7 (고정) | Magistral 수준 |
벤치마크 수치가 좋은데 Qwen보다 출력이 3.5배 짧은 이유
공식 자료에서 가장 눈에 띄는 수치가 있습니다. AA LCR 벤치마크에서 Mistral Small 4는 0.72점을 받는데, 출력 길이가 1.6K 자입니다. Qwen 모델들이 같은 점수대를 내려면 5.8K~6.1K 자가 필요합니다. 3.5~4배 더 길게 씁니다. LiveCodeBench에서는 GPT-OSS 120B를 앞서면서도 출력이 20% 짧습니다. (출처: Mistral AI 공식 발표 / Hugging Face 모델 카드, 2026.03.16)
이게 비용에서 직접 수치로 나옵니다. 출력 토큰 가격은 입력보다 비쌉니다. Mistral Small 4의 출력 가격은 1M 토큰당 $0.60입니다. (출처: OpenRouter, 2026.03.16) 같은 작업에서 Qwen이 4배 긴 출력을 낸다면, 동일 API 가격이라도 출력 비용이 4배 차이납니다. 출력 효율이 곧 운영 비용입니다.
하지만 이 수치를 그대로 신뢰하기 전에 한 가지를 봐야 합니다. Mistral이 발표한 벤치마크는 자사 모델과의 비교가 중심이고, 비교 대상이 GPT-OSS 120B·Qwen으로 한정됩니다. Claude Sonnet 계열이나 Gemini 3.1과의 직접 비교는 공식 발표에 포함되지 않았습니다. Artificial Analysis의 독립 평가에서는 Intelligence Index 27점으로 중상위권이지만, 1위 그룹과는 차이가 있습니다. (출처: Artificial Analysis, 2026.03)
로컬 실행이 생각보다 까다로운 이유
RTX 4090 하나로 Mistral Small 4를 돌릴 수 있을 것 같지만, 실제론 안 됩니다. NVFP4(4비트 양자화) 기준으로 로컬 실행에 필요한 VRAM이 약 70GB입니다. (출처: Reddit r/MistralAI, 2026.03.20) 최소 구성이 NVIDIA HGX H100 4장, 또는 H200 2장, 또는 DGX B200 1장입니다. (출처: Mistral AI 공식 발표, 2026.03.16)
vLLM 공식 저장소에 Mistral Small 4 지원 PR이 아직 머지되지 않았습니다. 공식 HuggingFace 모델 카드에 “이 PR은 2026년 3월 16일 기준 1~2주 내 머지 예정”이라고 나와 있습니다. 지금 당장 vLLM 공식 버전으로 실행하면 tool calling과 reasoning 파싱이 제대로 안 됩니다. Mistral이 제공하는 별도 Docker 이미지(mistralllm/vllm-ms4:latest)를 사용해야 합니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)
llama.cpp·LM Studio를 통한 GGUF 버전은 Unsloth가 제공합니다. 70GB에 못 미치는 환경에서도 Q4_K_M 등 낮은 비트 양자화로 실행 자체는 됩니다. 단, 이 경우 이미지(비전) 기능이 제대로 작동하지 않는다는 보고가 있습니다. 이 부분은 아래 섹션에서 더 다룹니다.
⚠️ 로컬 실행 최소 요구 사양 (공식 기준, 2026.03.16)
- 최소: NVIDIA HGX H100 4장 / HGX H200 2장 / DGX B200 1장
- NVFP4 양자화 기준 약 70GB VRAM
- 일반 RTX 4090(24GB) 단독으론 불가
이미지 기능, API와 로컬이 다르게 동작합니다
Mistral Small 4는 공식적으로 멀티모달 모델입니다. 텍스트와 이미지를 동시에 입력받습니다. 그런데 양자화된 로컬 버전에서 이미지 인식이 형편없다는 후기가 나왔습니다. Q4_K_M으로 테스트했을 때 이미지를 전혀 못 읽는 수준이어서 설정 오류인 줄 알고 공식 API로 재테스트해보니 API에서는 정상 작동했다는 내용입니다. (출처: Reddit r/LocalLLaMA, 2026.03.17)
Mistral 측이 공식 답변을 내놓지 않은 부분입니다. 다만 기존 Mistral Small 3.1(24B) 기준으로, 양자화된 GGUF 버전에서 비전 컴포넌트가 유지되는 사례를 찾기 어렵다는 이야기가 이전에도 있었습니다. 양자화 과정에서 비전 인코더 부분이 손상되거나 누락되는 구조적 문제로 추정되지만, 공식 확인은 아직 없습니다.
결론적으로 이미지 분석·문서 파싱 목적으로 쓸 계획이라면 공식 API나 vLLM(공식 Docker 이미지)을 써야 합니다. GGUF 로컬 환경에서는 텍스트 기능만 안정적으로 쓸 수 있다고 보는 게 현실적입니다. 이미지가 필요 없다면 양자화 로컬 실행도 문제없습니다.
💡 공식 발표문에는 ‘네이티브 멀티모달’이라고 나오지만, 이 기능이 제대로 동작하는 환경은 공식 API와 vLLM(Docker) 두 가지입니다. 로컬 GGUF 실행에서 이미지 기능을 기대하고 계획을 세웠다면 재검토가 필요합니다.
비용 계산 — GPT-4.1·Claude Sonnet과 직접 비교해봤습니다
Mistral Small 4의 API 가격은 입력 $0.15/1M 토큰, 출력 $0.60/1M 토큰입니다. (출처: OpenRouter·Artificial Analysis, 2026.03.16) 경쟁 모델들과 같은 작업을 돌린다고 가정했을 때 차이가 뚜렷합니다. 아래 표는 1M 입력 + 1M 출력 기준 총 비용입니다.
| 모델 | 입력 (/1M) | 출력 (/1M) | 합계 |
|---|---|---|---|
| Mistral Small 4 | $0.15 | $0.60 | $0.75 |
| GPT-4.1 mini (참고) | 약 $0.40 | 약 $1.60 | 약 $2.00 |
| Claude Sonnet 4 (참고) | 약 $3.00 | 약 $15.00 | 약 $18.00 |
※ GPT-4.1 mini·Claude Sonnet 4 수치는 참고용 추정치이며, 각 공식 페이지에서 최신 가격을 직접 확인하세요.
같은 작업에서 출력량도 짧다면 실제 비용 격차는 표보다 더 벌어집니다. Mistral Small 4가 Qwen 대비 출력이 3.5~4배 짧다는 수치(출처: Mistral AI 공식, 2026.03.16)를 여기에 적용하면, 동일 벤치마크 성능 기준으로 출력 토큰 소비가 그만큼 줄어든다는 의미입니다. 비용 민감한 API 서비스라면 이 부분이 선택의 핵심입니다.
단, 출력 효율이 좋다고 무조건 저렴한 건 아닙니다. Claude Sonnet 4처럼 더 높은 지능이 필요한 복잡한 작업에서는 Mistral Small 4가 여러 번 재시도해야 하는 경우가 생길 수 있습니다. 그러면 총 토큰 소비는 오히려 늘어납니다. 태스크 복잡도에 따른 현실적 비교가 필요합니다.
Q&A
마치며
Mistral Small 4는 이름과 달리 가볍게 쓸 수 있는 모델이 아닙니다. MoE 구조 덕분에 응답 속도와 토큰 효율은 좋지만, 이 모델을 제대로 써먹으려면 reasoning_effort·temperature 조합을 공식 권장값에 맞춰야 하고, 로컬 실행을 계획한다면 VRAM 요구량과 이미지 기능 제약을 미리 파악해야 합니다.
API 기반으로 텍스트 작업과 에이전트 파이프라인을 구성하는 팀에게는 가격 대비 성능이 현실적으로 매력적입니다. 반면 로컬 멀티모달 환경을 원한다면 아직 준비가 충분하지 않습니다. Apache 2.0 라이선스로 파인튜닝과 상업 배포가 자유롭다는 점은 중소 규모 팀에게 실질적인 이점입니다.
솔직히 말하면, ‘Small’이라는 이름이 마케팅적으로 혼란을 줍니다. 이 모델의 진짜 포지셔닝은 ‘비용 효율 높은 엔터프라이즈 추론 모델’에 가깝습니다. 그렇게 이해하고 쓰면 기대치 관리가 훨씬 쉬워집니다.
본 포스팅 참고 자료
- Mistral AI 공식 발표 — Introducing Mistral Small 4 (mistral.ai/news/mistral-small-4)
- Hugging Face 공식 모델 카드 — Mistral-Small-4-119B-2603 (huggingface.co/mistralai/Mistral-Small-4-119B-2603)
- NVIDIA NIM 모델 카드 — mistral-small-4-119b-2603 (build.nvidia.com)
- Artificial Analysis — Mistral Small 4 Intelligence & Price Analysis (artificialanalysis.ai)
- OpenRouter — Mistral Small 4 API Pricing (openrouter.ai)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Mistral Small 4는 출시 직후 모델로, vLLM PR 머지 상태·양자화 지원·이미지 기능 등은 업데이트에 따라 달라질 수 있습니다. 모든 수치는 작성 기준일(2026.03.29) 공개된 공식 자료를 바탕으로 했습니다.











댓글 남기기