Apache 2.0
MoE 119B
Mistral Small 4, 무료라고요?
로컬 실행 조건 먼저 보세요
Apache 2.0으로 완전 무료, 119B 파라미터에 추론·코딩·비전까지 한 모델에 담았다는 소식에 귀가 솔깃했다면 — 이 숫자부터 확인하세요.
Mistral Small 4가 뭔데 이렇게 화제일까요
2026년 3월 16일, 프랑스 AI 기업 Mistral이 Mistral Small 4를 공개했습니다. 핵심은 “한 모델에 세 가지 다 담았다”는 겁니다. 기존에 추론은 Magistral, 코딩 에이전트는 Devstral, 일반 대화는 Mistral Small Instruct로 따로 써야 했는데, Small 4는 이 세 역할을 하나에 통합했습니다. (출처: Mistral AI 공식 블로그, 2026.03.16)
Apache 2.0 라이선스로 풀렸다는 점도 주목받은 이유입니다. 상업·비상업 구분 없이 무제한 활용이 가능하고, 파인튜닝도 자유롭습니다. Hugging Face에서 바로 내려받을 수 있고, NVIDIA NIM을 통해 클라우드 API로도 제공됩니다.
문제는 “무료 + 강력”이라는 타이틀 뒤에 실제 사용 조건이 생각보다 까다롭다는 점입니다. 바로 그 부분을 이 글에서 공식 수치로 짚어보겠습니다.
119B인데 “Small”이라는 이유 — MoE 구조가 핵심입니다
💡 공식 발표문과 실제 아키텍처 스펙을 나란히 놓고 보면 “Small”이라는 이름의 실제 의미가 달리 보입니다.
Mistral Small 4는 Mixture-of-Experts(MoE) 구조입니다. 총 파라미터는 119B이지만, 토큰 하나를 처리할 때 실제로 활성화되는 건 128개 전문가 중 딱 4개 — 즉 활성 파라미터 6.5B입니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)
Mistral이 “Small”이라고 부르는 근거는 여기 있습니다. 실제 연산량 기준으로는 6~7B 수준의 밀집(Dense) 모델과 비슷하게 빠릅니다. 공식 발표에서는 지연 최적화 설정 기준 전체 완료 시간 40% 감소, 처리량 최적화 설정 기준 초당 요청 수 3배 향상을 Mistral Small 3 대비 달성했다고 밝혔습니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16) 속도만 놓고 보면 확실히 “Small답게” 빠릅니다.
하지만 이름과 실제 메모리 요구사항은 다른 이야기입니다. 활성 파라미터가 6.5B라도 나머지 112.5B 파라미터는 고스란히 메모리에 올라가 있어야 합니다. 이 부분에서 많은 사람이 착각합니다.
무료인데 로컬 실행이 왜 이렇게 어렵냐는 질문
💡 활성 파라미터 6.5B를 보고 “RTX 4070 한 장으로 되겠네”라고 생각했다면 — 실제로는 그렇지 않습니다. 총 파라미터 119B 전체가 메모리에 올라가야 합니다.
r/LocalLLaMA 커뮤니티의 실제 측정치에 따르면, Q4 양자화 기준으로 약 70GB의 통합 메모리(RAM+VRAM)가 필요합니다. (출처: r/LocalLLaMA, 2026.03.16) 24GB VRAM을 가진 RTX 4090 한 장으로는 절대 실행이 안 됩니다.
| 실행 환경 | 가능 여부 | 비고 |
|---|---|---|
| RTX 4090 × 1 (24GB) | ❌ 불가 | VRAM 부족 |
| NVIDIA HGX H100 × 4 | ✅ 최소 권장 | 공식 최소 구성 |
| NVIDIA HGX H200 × 2 | ✅ 최소 권장 | 공식 최소 구성 |
| NVIDIA DGX B200 × 1 | ✅ 최소 권장 | 공식 최소 구성 |
| Mac Studio (128GB 통합 메모리) | ⚠️ 조건부 | 속도 저하 감수 필요 |
| 일반 PC (RAM 96GB DDR5) | ⚠️ 조건부 | 10~20 TPS 수준 |
(출처: Mistral AI 공식 발표 + r/LocalLLaMA 커뮤니티 측정치, 2026.03.16)
공식 권장 구성은 H100 또는 H200 4장, 혹은 DGX B200 2장입니다. 기업용 인프라가 없는 개인이라면 사실상 로컬 실행은 비현실적입니다. “Apache 2.0 무료 라이선스”와 “실제 사용 가능”은 다른 이야기입니다. 라이선스는 무료이지만 실행 비용은 별개입니다.
물론 Mistral API와 NVIDIA NIM을 통해 클라우드로 사용하는 건 가능합니다. 비용 부담 없이 써보고 싶다면 build.nvidia.com에서 무료 프로토타이핑을 지원합니다. 하지만 “집 서버에서 돌린다”는 건 현재 기준으로 매우 제한적입니다.
reasoning_effort 파라미터 — 한 모델이 두 개처럼 작동합니다
💡 공식 모델 카드와 실제 API 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — reasoning_effort를 어떻게 쓰느냐에 따라 사실상 두 개의 다른 모델이 됩니다.
Mistral Small 4의 독특한 기능 중 하나는 reasoning_effort 파라미터입니다. 요청마다 동적으로 추론 강도를 조절할 수 있습니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)
빠르고 가벼운 응답 모드. Mistral Small 3.2와 동등한 대화 스타일로 작동합니다. 일상적인 질의응답, 요약, 번역처럼 복잡한 추론이 필요 없는 태스크에 최적입니다.
심층 추론 모드. 기존 Magistral 모델과 동등한 단계적 추론을 수행합니다. 수학, 코딩, 복잡한 문제 해결에서 성능이 눈에 띄게 달라집니다. 단, 응답 시간도 늘어납니다.
실용적인 의미는 이렇습니다. 예전에는 빠른 응답이 필요하면 Small, 복잡한 추론이 필요하면 Magistral로 모델을 따로 유지해야 했습니다. Small 4는 그 전환을 API 파라미터 하나로 처리합니다. 운영 비용과 인프라 복잡도를 동시에 줄일 수 있는 구조입니다.
단 주의할 점이 있습니다. reasoning=”high”로 설정하면 Qwen이 비슷한 성능을 내면서 3.5~4배 더 긴 출력을 생성하는 반면, Small 4는 상당히 짧게 끝내는 경향이 있습니다. AA LCR 벤치마크에서 Small 4는 1.6K 문자로 0.72점을 기록했는데, Qwen 모델은 동등 점수를 위해 5.8~6.1K 문자가 필요했습니다. (출처: mistral.ai/news/mistral-small-4) 출력 효율이 높다는 의미입니다.
벤치마크 수치, 직접 따져봤더니 생각과 달랐습니다
💡 119B라는 숫자가 주는 기대감과 실제 벤치마크 결과 사이에는 꽤 큰 간극이 있습니다. Qwen3.5 35B-A3B와 비교하면 특히 두드러집니다.
r/LocalLLaMA에 올라온 직접 비교 측정치를 보면 아래와 같습니다. 이 수치가 중요한 이유는 Qwen3.5 35B-A3B가 총 파라미터가 3분의 1도 안 되는 모델임에도 전 영역에서 앞서기 때문입니다. (출처: r/LocalLLaMA, 2026.03.16)
| 모델 | 파라미터 | GPQA Diamond | MMLU Pro | LiveCodeBench |
|---|---|---|---|---|
| Mistral Small 4 (추론 모드) | 119B 총 / 6.5B 활성 | 71.2 | 78.0 | 63.6 |
| Qwen3.5-35B-A3B | 35B 총 / 3B 활성 | 84.2 | 85.3 | 74.6 |
(출처: r/LocalLLaMA 커뮤니티 측정치, 2026.03.16) — 높을수록 좋음.
총 파라미터 기준으로 Qwen3.5-35B-A3B는 Small 4의 약 29% 수준이지만 성능은 오히려 전 영역에서 앞섭니다. 왜냐면 실제 성능은 총 파라미터보다 활성 파라미터의 품질과 훈련 방식에 더 많이 달려 있기 때문입니다. Small 4의 활성 파라미터는 6.5B이고, Qwen3.5-35B-A3B의 활성 파라미터는 3B입니다. 활성 파라미터는 Qwen이 절반인데 성능은 더 높습니다.
한편 LiveCodeBench에서 Small 4는 GPT-OSS 120B를 20% 더 짧은 출력으로 제치는 결과를 보였습니다. (출처: mistral.ai/news/mistral-small-4) 같은 수준의 정답을 더 짧게 낸다는 건 API 비용과 레이턴시 모두에 직결됩니다.
결론적으로 말씀드리면, Small 4는 “Qwen3.5 122B급 경쟁자”라기보다 출력 효율이 높은 엔터프라이즈용 통합 모델에 더 가깝습니다. 순수 성능 수치보다 유지보수 단순화와 출력 토큰 절감이 실제 가치의 중심입니다.
Mistral Small 4가 실제로 유리한 경우는 따로 있습니다
💡 벤치마크 수치만 보면 놓치는 게 있습니다. Mistral이 실제로 우위를 가지는 상황은 꽤 구체적입니다.
Mistral 모델이 커뮤니티에서 계속 사용되는 이유 중 하나는 검열 수준입니다. 비슷한 성능의 경쟁 모델보다 오픈 소스 프론티어 정책을 유지하면서 아웃오브더박스로 검열이 낮은 편입니다. 콘텐츠 제한이 엄격한 Claude나 GPT 계열보다 자유로운 창작·롤플레이 분야에서 선호됩니다.
그 외에 Small 4가 실제로 강점을 보이는 영역은 아래와 같습니다.
- 유럽어 다국어 처리: 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 네덜란드어 등에서 경쟁 모델보다 일관되게 높은 품질을 보입니다. 특히 법률·행정 문서처럼 유럽어 맥락이 중요한 B2B 케이스에서 강합니다.
- 한 모델 배포로 TCO 절감: 추론·코딩·비전을 따로 유지하던 인프라를 하나로 통합할 수 있습니다. 라이선스 비용 없이 파인튜닝 후 온프레미스 배포가 가능해 장기 운영 비용이 낮아집니다.
- 256K 컨텍스트 + 비전: 긴 문서를 이미지 형태로 처리하거나, 수십 페이지 계약서를 단일 요청으로 분석하는 케이스에서 256K 컨텍스트와 멀티모달 입력이 동시에 필요할 때 선택지가 됩니다.
- 파인튜닝 자유도: Apache 2.0 라이선스이므로 결과물의 소유권이 모두 사용하는 쪽에 있습니다. 데이터 주권이 중요한 금융·의료 산업에서 선택 이유가 됩니다.
솔직히 말하면, 순수 성능 벤치마크에서는 Qwen3.5 122B-A10B나 Nemotron 3 Super 120B-A12B에 뒤집니다. Small 4를 선택하는 이유는 성능보다 라이선스 자유도 + 통합 운영 편의 + 유럽 규정 준수 쪽입니다.
결론 — 어떤 상황에서 쓰고 어떤 상황에서 패스할지
Mistral Small 4는 좋은 모델입니다. 하지만 “좋다”와 “나한테 맞다”는 다른 얘기입니다. 정리하면 이렇습니다.
- 온프레미스 배포로 라이선스 비용 제거 목표
- 추론·코딩·비전 세 가지를 하나의 API로 운용
- 유럽어 다국어 + 유럽 규정 준수 필요
- 파인튜닝 후 결과물 소유권 완전 확보 필요
- 출력 토큰 절감이 운영 비용에 직결되는 환경
- 개인 PC·로컬 환경에서 실행 (70GB RAM 부족)
- 순수 코딩·수학 벤치마크 최상위가 필요
- RTX 4090 한 장 수준 소비자 GPU로 운용
- 추론 없는 빠른 일반 대화만 필요한 경우
Apache 2.0 무료 라이선스의 가치는 분명합니다. 하지만 그 가치를 온전히 누리려면 H100급 인프라가 필요합니다. 개인 개발자나 소규모 팀이라면 Mistral API 또는 NVIDIA NIM으로 접근하는 쪽이 현실적입니다. 클라우드로 쓰면 라이선스 비용 절감 효과는 사실상 사라지지만, 통합 모델로 인한 운용 단순화와 출력 효율은 여전히 유효합니다.
자주 묻는 질문 5가지
마치며 — 총평
Mistral Small 4는 “무료 + 강력 + 올인원”이라는 포지셔닝이 마케팅적으로 완벽합니다. 그리고 그 가치는 실제로 존재합니다. 세 개의 전문 모델을 하나로 통합한 점, Apache 2.0 라이선스로 완전한 파인튜닝 자유를 준 점, 출력 효율이 Qwen보다 높은 점은 기업 배포 환경에서 진짜 강점입니다.
하지만 두 가지는 직접 확인해야 합니다. 첫째, 119B MoE는 로컬 실행에 70GB RAM이 필요합니다. “활성 파라미터 6.5B”를 보고 소비자 GPU로 돌아간다고 착각하면 안 됩니다. 둘째, 벤치마크 수치는 Qwen3.5 35B-A3B에도 뒤집힙니다. 숫자가 크다고 성능이 높은 게 아닙니다.
결국 Mistral Small 4는 성능 경쟁에서 이기는 모델이 아니라, 운영 구조를 단순화하면서 라이선스 비용을 제거하려는 기업을 위한 모델입니다. 그 맥락에서 쓴다면 충분히 좋은 선택입니다.
본 포스팅 참고 자료
- Mistral AI 공식 블로그 — Introducing Mistral Small 4 https://mistral.ai/news/mistral-small-4
- Hugging Face 공식 모델 카드 — mistralai/Mistral-Small-4-119B-2603 https://huggingface.co/mistralai/Mistral-Small-4-119B-2603
- NVIDIA NIM 모델 카드 https://build.nvidia.com/mistralai/mistral-small-4-119b-2603
- r/LocalLLaMA — Mistral Small 4 : 119B-2603 스레드 (2026.03.16)
- kaitchup.substack.com — Mistral Small 4: A Good Alternative to Qwen3.5 122B (2026.03.20)
⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. IT/AI 서비스는 빠르게 업데이트되므로 최신 정보는 Mistral AI 공식 홈페이지 및 Hugging Face 모델 카드에서 직접 확인하시길 권장합니다. 본 포스팅은 2026년 4월 2일 기준으로 작성되었습니다.

댓글 남기기