Mistral-Small-4-119B-2603
IT/AI
Mistral Small 4, 수치 4개로 직접 따져봤습니다
이름은 ‘Small’인데 파라미터는 119B입니다. 공식 발표에는 없는 이야기도 있습니다 — 비전 기능은 공식 API에서도 상당히 불안정하고, Qwen 대비 출력 효율이 다릅니다. 수치를 직접 비교해봤습니다.
‘Small’인데 119B — 이름과 실제 규모의 간극
Mistral Small 4는 이름만 보면 가벼운 모델처럼 들립니다. 그런데 총 파라미터 수는 119B입니다. GPT-4나 Claude Opus 급에서 거론되는 숫자와 같은 자릿수죠. 이 간극이 생기는 건 MoE(Mixture of Experts) 구조 때문입니다.
MoE는 전체 파라미터를 한꺼번에 쓰지 않습니다. Mistral Small 4는 128개의 전문가(expert) 레이어 중 토큰 하나당 4개만 활성화합니다. 실제 연산에 동원되는 파라미터는 6.5B 수준 (임베딩 포함 시 8B) 입니다. (출처: Mistral AI 공식 발표, 2026.03.16) 119B가 움직이는 게 아니라 6.5B가 움직이는 겁니다 — 속도가 빠른 이유가 여기 있습니다.
그래서 ‘Small’은 파라미터 크기가 아니라 추론 시 계산 비용(active compute)이 작다는 개념에 가깝습니다. ArtificialAnalysis 기준 135 tokens/sec를 기록했고, 이는 동급 모델 평균 61 tokens/sec의 두 배가 넘습니다. (출처: artificialanalysis.ai, 2026.03 측정)
💡 공식 발표문과 벤치마크 수치를 같이 놓고 보니 이런 차이가 보였습니다 — ‘Small’이라는 이름이 용량이 아닌 속도를 가리키고 있다는 사실입니다.
3개 모델을 하나로 통합한 MoE 구조
Mistral AI는 그동안 목적에 따라 모델을 따로 썼습니다. 추론에는 Magistral, 코딩 에이전트에는 Devstral, 일반 대화에는 Mistral Small — 이렇게 세 개를 나눠서 써야 했습니다. Mistral Small 4는 이 세 개를 하나로 묶겠다는 선언입니다.
공식 HuggingFace 모델 카드에는 “Unifies capabilities of three different model families — Instruct, Reasoning (previously called Magistral), and Devstral”라고 명시돼 있습니다. (출처: huggingface.co/mistralai/Mistral-Small-4-119B-2603, 2026.03.16) 코딩·추론·대화를 하나의 모델이 커버한다는 뜻입니다.
| 이전 모델 | 역할 | Small 4 통합 여부 |
|---|---|---|
| Magistral | 복잡한 추론 | ✅ 통합 |
| Devstral | 코딩 에이전트 | ✅ 통합 |
| Mistral Small 3.x | 일반 대화·지시 수행 | ✅ 통합 |
개발자 입장에서는 API 엔드포인트 하나로 세 가지 역할을 해결할 수 있다는 게 실질적 이점입니다. 지금까지는 작업에 따라 모델을 바꿔야 했고, 그때마다 컨텍스트 관리와 비용 구조가 달라졌습니다.
reasoning_effort 파라미터 — 한 모델이 두 가지 성격
Mistral Small 4의 가장 특이한 부분은 reasoning_effort 파라미터입니다. API 호출 시 이 값을 바꾸는 것만으로 모델의 동작 방식 자체가 달라집니다.
reasoning_effort="none"으로 설정하면 Mistral Small 3.2 수준의 빠른 응답 모드가 됩니다. reasoning_effort="high"로 바꾸면 이전 Magistral 모델 수준의 단계적 추론을 시작합니다. 공식 HuggingFace 카드에 이 두 모드가 직접 비교 벤치마크로 제시돼 있습니다. (출처: huggingface.co/mistralai/Mistral-Small-4-119B-2603, 2026.03.16)
💡 하나의 모델인데 두 번 쓰는 방법이 생겼습니다
간단한 요청은 none 모드로 빠르게 처리하고, 수학·코드 디버깅 같은 복잡한 요청에만 high 모드를 켜는 방식으로 — 같은 API 키 안에서 비용을 직접 제어할 수 있습니다.
권장 온도(temperature)도 모드에 따라 달라집니다. none 모드는 0.0~0.7 사이, high 모드는 0.7 고정입니다. 공식 문서에 별도 이유를 밝히지 않았지만, 추론 단계에서 다양한 사고 경로를 열어둬야 하기 때문으로 해석됩니다.
공식 API에서도 확인된 비전 기능의 현실
공식 발표에서 Mistral Small 4의 멀티모달 기능을 크게 강조했습니다. 그런데 출시 직후 LocalLLaMA 커뮤니티에서 공식 API를 직접 테스트한 사용자가 심각한 문제를 보고했습니다.
음악 페스티벌 사진을 보여주고 200단어로 묘사해달라고 했을 때, Mistral Small 4 공식 API는 “stadium”, “track area”, “security personnel”, “vehicles”를 언급했습니다. 사진에 없는 것들입니다. 반면 Qwen 3.5 35B(약 1/4 파라미터)는 무대 위 뮤지션과 해변, 선셋, 텐트 줄까지 정확하게 묘사했습니다. (출처: reddit.com/r/LocalLLaMA, 2026.03.17)
⚠️ 주목할 부분: 테스트 환경은 quantized 로컬 모델이 아닌 Mistral 공식 API였습니다. 양자화나 llama.cpp 구현 문제가 아니라는 뜻입니다. 같은 사용자가 이전 세대인 Mistral Small 3.2, Ministral 3B·8B·14B를 같은 방식으로 테스트했을 때는 이 문제가 발생하지 않았습니다.
IDP 리더보드 기준으로도 Mistral Small 4의 비전 점수는 Qwen 3.5 9B(Mistral Small 4보다 훨씬 작은 모델)보다 낮습니다. Mistral Small 4가 공식적으로 내세우는 “멀티모달 통합”의 실제 완성도가 아직 고르지 않다는 사실은 직접 비교 수치에서 드러납니다. Mistral AI 측의 공식 답변은 아직 나오지 않은 상태입니다.
Qwen 대비 출력 토큰 효율 — 3.5~4배 차이의 의미
Mistral AI가 자체 공개한 벤치마크에서 흥미로운 수치가 있습니다. AA LCR(긴 문맥 추론) 벤치마크에서 Mistral Small 4는 0.72점, 1.6K 문자 출력으로 해당 점수를 달성했습니다. Qwen 모델들은 같은 점수대에서 5.8~6.1K 문자를 썼습니다 — 3.5~4배 더 긴 답변을 뽑아야 한다는 뜻입니다. (출처: Mistral AI 공식 발표문, 2026.03.16)
📊 수치를 직접 비교해보면
| 모델 | AA LCR 점수 | 평균 출력 길이 | 효율 비교 |
|---|---|---|---|
| Mistral Small 4 | 0.72 | 약 1.6K 문자 | 기준 |
| Qwen 비교군 | 유사 점수대 | 5.8~6.1K 문자 | 3.5~4배 더 길다 |
출력 토큰이 적다는 건 단순히 짧은 답변이 아닙니다. 토큰당 과금되는 API 비용이 직접적으로 줄어든다는 뜻입니다. LiveCodeBench에서도 Mistral Small 4는 GPT-OSS 120B보다 높은 점수를 내면서 출력량은 20% 적었습니다. 같은 품질에 더 적은 토큰 — 운영 비용이 중요한 프로덕션 환경에서 이 차이는 누적됩니다.
💡 공식 발표에 묻혀 있던 수치를 꺼내보니 — 출력 효율 지표가 가격 비교보다 더 직접적으로 비용을 좌우합니다.
로컬 실행 가능 여부 — 하드웨어 조건 직접 정리
119B 모델을 로컬에서 돌리려면 어떤 장비가 필요한지 공식 문서와 커뮤니티 데이터를 기반으로 정리했습니다. 기본 권장 사항은 NVIDIA HGX H100 4대이지만, 일반 개발자 기준으로 현실적인 조건은 다릅니다.
| 환경 | 최소 요구사항 | 실용 비고 |
|---|---|---|
| QLoRA 파인튜닝 | VRAM 24GB (단일 GPU) | RTX 3090/4090 가능 |
| LoRA 파인튜닝 | VRAM 40GB | A100 40GB 클라우드 권장 |
| 풀 파인튜닝 | VRAM 160GB+ | 멀티 GPU 환경 필수 |
| Ollama 로컬 추론 | RAM 16GB (Q4 기준) | 커맨드 한 줄로 실행 가능 |
Ollama로 로컬 실행 시 ollama run mistral-small 명령 하나로 됩니다. Q4 quantization 기준 16GB RAM으로 동작하지만, 비전 기능은 공식 API와 마찬가지로 품질이 불안정하다는 커뮤니티 보고가 다수입니다. 텍스트 추론만 쓸 거라면 Q5 quantization에 32GB RAM을 권장합니다.
Apache 2.0 라이선스, LLaMA와 다른 점
오픈소스 모델을 프로덕션에 쓸 때 라이선스는 생각보다 중요한 변수입니다. Mistral Small 4는 Apache 2.0 라이선스로 공개됐습니다. 상업 사용, 수정, 재배포, 제품 내 통합 모두 가능하고 Mistral에 아무것도 지불하지 않아도 됩니다.
Meta의 LLaMA 라이선스와 결정적으로 다른 점이 있습니다. LLaMA는 월간 활성 사용자 7억 명 초과 시 별도 상업 라이선스 협의가 필요합니다. Apache 2.0에는 사용자 수 제한이 없습니다. (출처: mindstudio.ai Mistral Small 4 가이드, 2026.03.21) 스타트업이나 빠르게 성장하는 서비스에서 라이선스 리스크가 없다는 점은 실질적 차별점입니다.
가격 구조도 봐야 합니다. Mistral AI API 기준 입력 1M 토큰 $0.15, 출력 1M 토큰 $0.60입니다. ArtificialAnalysis 측정 결과 전체 Intelligence Index 평가 비용은 $16.37였고, 동급 모델 평균($0.20/$0.57)과 비교하면 입력은 낮고 출력은 약간 비쌉니다. (출처: artificialanalysis.ai, 2026.03 측정) 출력 토큰이 적다는 벤치마크 수치와 연결해 보면 실제 청구 금액은 표면 단가보다 낮게 나올 수 있습니다.
자주 묻는 질문
Mistral Small 4는 GPT-4o와 비교할 수 있는 수준인가요?
직접 비교하면 GPT-4o가 상위입니다. 특히 비전과 복잡한 추론에서 차이가 있습니다. 다만 Mistral Small 4가 겨냥한 건 GPT-4o가 아니라 Claude Haiku 3.5, Qwen 2.5 같은 중형 모델과의 가성비 경쟁입니다. 코딩과 수학 벤치마크에서는 이 구간 모델들과 비슷한 수준을 보입니다. (출처: mindstudio.ai, 2026.03.21)
비전 기능 문제가 언제 해결될지 알 수 있나요?
Mistral AI가 공식 입장을 내놓지 않은 부분입니다. 커뮤니티 일부에서는 Mistral Small 3.1 때도 비전 인코더 activation 함수 버그가 있었다가 패치된 선례를 들며 수정 가능성을 언급하고 있습니다. 현재로서는 텍스트·추론·코딩 위주의 워크플로에서 쓰고, 비전 태스크는 별도 모델을 병행하는 편이 현실적입니다.
한국어 지원은 어느 정도인가요?
공식 HuggingFace 모델 카드에 Korean이 지원 언어 목록에 명시돼 있습니다. 이전 Mistral 시리즈는 한국어 지원이 취약하다는 평가가 있었는데, Small 4부터는 공식 다국어 지원 대상으로 포함됐습니다. 다만 영어·프랑스어 대비 품질 차이가 없는지는 별도 테스트가 필요합니다. (출처: huggingface.co/mistralai/Mistral-Small-4-119B-2603)
reasoning_effort 파라미터를 쓰면 비용이 더 나오나요?
high 모드는 추론 과정 토큰이 추가로 생성됩니다. 출력 토큰 수가 늘어나므로 그만큼 비용이 올라갑니다. 단순 질문·분류·요약처럼 빠른 응답으로 충분한 작업에는 none을 유지하는 게 비용 효율이 좋습니다. Mistral AI 공식 문서에 모드별 권장 사용 사례가 구분돼 있습니다.
Mistral Small 4와 Mistral Small 3.2의 차이가 실제로 크나요?
아키텍처부터 다릅니다. Small 3.x는 24B 밀집 모델이고, Small 4는 119B MoE입니다. 처리 속도는 latency 기준 40% 단축, 처리량은 3배 향상됐습니다. (출처: Mistral AI 공식 발표문, 2026.03.16) 다만 비전 기능은 Small 3.2가 더 안정적이라는 커뮤니티 평가가 있습니다. 목적에 따라 선택이 달라질 수 있습니다.
마치며
Mistral Small 4는 ‘하나로 다 되는 모델’을 향한 의미 있는 시도입니다. Magistral·Devstral·Small의 통합, 그리고 reasoning_effort로 한 모델에서 속도와 깊이를 조절하는 구조는 실용적입니다. 출력 토큰 효율도 경쟁 모델 대비 3~4배 높다는 벤치마크는 비용이 중요한 프로덕션 환경에서 진지하게 볼 만합니다.
다만 비전 기능은 솔직히 지금 당장 쓰기 어렵습니다. 공식 API에서 사진 묘사를 완전히 틀리는 수준이라면 멀티모달 통합이라는 마케팅 문구를 그대로 믿기 어렵습니다. 텍스트·추론·코딩에서 가성비 좋은 오픈소스 모델을 찾는 경우엔 지금 당장 써볼 이유가 충분하지만, 이미지 이해가 핵심인 워크플로는 패치를 기다리는 편이 낫습니다.
Apache 2.0이라는 조건은 변하지 않습니다. 사용자 수가 아무리 늘어도 라이선스 걱정 없이 쓸 수 있는 119B 모델이 무료로 공개됐다는 사실 자체는 오픈소스 AI 생태계 입장에서 의미 있는 변화입니다.
본 포스팅 참고 자료
- Mistral AI 공식 발표 — https://mistral.ai/news/mistral-small-4 (2026.03.16)
- HuggingFace 공식 모델 카드 — https://huggingface.co/mistralai/Mistral-Small-4-119B-2603 (2026.03.16)
- ArtificialAnalysis 성능 측정 — https://artificialanalysis.ai/models/mistral-small-4-non-reasoning (2026.03 측정)
- LocalLLaMA 비전 기능 실사용 보고 — reddit.com/r/LocalLLaMA/comments/1rw9a2r (2026.03.17)
- MindStudio Mistral Small 4 가이드 — mindstudio.ai/blog/what-is-mistral-small-4 (2026.03.21)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 작성 시점(2026.04.02) 기준이며, Mistral Small 4-119B-2603 모델 기준으로 작성됐습니다. 이후 업데이트나 패치에 의해 내용이 달라질 수 있습니다.

댓글 남기기