Mistral Small 4, “하나면 충분”이라는 말이 맞을까요?

Published on

2026년 3월 26일

Mistral Small 4 기준 (2026.03.17 출시)
Apache 2.0 오픈소스

Mistral Small 4, “하나면 충분”이라는 말이 맞을까요?

2026년 3월 17일, Mistral AI가 Mistral Small 4를 공개했습니다. 이 모델이 주목받는 이유는 딱 하나입니다. 추론 전용 Magistral, 이미지 분석 전용 Pixtral, 코딩 에이전트 전용 Devstral, 이 세 가지를 하나의 모델로 통합했다는 점입니다. 그런데 “하나면 된다”는 말이 항상 맞진 않죠. 공식 발표문과 실제 배포 조건을 같이 놓고 보니 놓치기 쉬운 조건들이 보였습니다.

119B

총 파라미터

6.5B

실제 연산 파라미터

256K

컨텍스트 윈도우

3배

Small 3 대비 처리량

119B라고 했는데 실제 연산은 6.5B — MoE 구조 이해

결론부터 말씀드리면, Mistral Small 4의 119B 파라미터는 실제로 동시에 돌아가지 않습니다. 토큰 하나를 처리할 때 128개의 전문 모듈(Expert) 중 4개만 활성화됩니다. 그 결과 실제 연산에 사용되는 파라미터는 6.5B 수준입니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)

💡 공식 발표문과 실제 연산 구조를 같이 놓고 보니 이런 차이가 보였습니다
119B 모델이지만 연산 비용은 6~7B급. 119B 모델을 사서 6B 비용으로 쓰는 셈입니다.

이 구조를 MoE(Mixture of Experts)라고 부릅니다. 마치 128명의 전문가 집단에서 매번 가장 적합한 4명만 호출하는 방식입니다. 전체 지식 풀은 119B 규모지만 한 번에 쓰는 비용은 6.5B 수준입니다. 덕분에 Small 3 대비 초당 처리 요청량이 3배로 늘었고, 응답 지연 시간은 40% 줄었습니다. (출처: Mistral AI 공식 발표, 2026.03.17)

그런데 여기서 놓치기 쉬운 부분이 있습니다. 총 파라미터 119B를 메모리에 적재하는 것은 변함이 없습니다. 연산이 6.5B라는 것이지, 모델 자체를 올리는 데 필요한 VRAM은 여전히 119B 기준입니다. BF16 기준 전체를 올리려면 약 240GB VRAM이 필요합니다. 이 부분은 뒤에서 자세히 다룹니다.

▲ 목차로 돌아가기

모델 3개가 1개로 — 통합이 실제로 의미하는 것

Mistral Small 4 이전에 Mistral 에코시스템을 제대로 활용하려면 세 가지 모델을 따로 관리해야 했습니다. 복잡한 수학 추론에는 Magistral, 이미지·문서 분석에는 Pixtral, 코드 에이전트 작업에는 Devstral을 써야 했죠. 이제 이 세 가지가 하나의 엔드포인트로 통합됩니다.

핵심은 reasoning_effort 파라미터입니다. API 요청 하나에 이 값을 어떻게 설정하느냐에 따라 모델의 동작 방식이 바뀝니다.

파라미터 값	동작 방식	적합한 용도
`none`	빠른 응답, Mistral Small 3.2 수준	일반 채팅, 분류, 데이터 추출
`high`	단계별 추론, Magistral 수준	수학, 복잡한 코딩, 다단계 계획

기업 입장에서 실질적인 의미는 이렇습니다. 챗봇이 들어오는 질문의 90%는 reasoning_effort="none"으로 빠르게 처리하고, 나머지 복잡한 10%만 high로 전환할 수 있습니다. 모델 전환 없이 하나의 엔드포인트에서. (출처: Mistral AI 공식 발표, 2026.03.17)

▲ 목차로 돌아가기

벤치마크 수치, 직접 읽는 법

Mistral AI가 공개한 벤치마크에서 눈에 띄는 부분이 있습니다. 점수 자체보다 출력 길이 차이입니다. 많은 분들이 “점수가 높으면 좋은 모델”로 읽는데, 실제 운영 비용은 점수가 아니라 토큰 수로 결정됩니다.

💡 점수보다 출력 길이 차이를 보면 비용 구조가 바뀝니다
동일한 정답률에서 짧게 끝낼수록 API 비용이 줄고 응답 속도가 빨라집니다.

AA LCR 테스트 기준으로, Mistral Small 4는 0.72점을 기록하면서 평균 출력 길이가 1,600자입니다. 같은 테스트에서 Qwen 3.5-122B는 비슷한 점수를 내지만 출력이 5,800~6,100자입니다. 차이가 3.5~4배입니다. (출처: Mistral AI 공식 발표, 2026.03.17)

LiveCodeBench에서는 GPT-OSS 120B보다 높은 점수를 기록하면서 출력 길이는 20% 짧습니다. 출력 토큰 수가 줄어드는 것은 실제로 두 가지를 동시에 의미합니다. 응답이 더 빨리 돌아오고, API 비용도 직접적으로 줄어듭니다.

벤치마크	Mistral Small 4	GPT-4o-mini	비고
GPQA Diamond	71.2%	40.2%	과학·의학 전문 추론
MMLU-Pro	78.0%	64.8%	다분야 종합 지식
AA LCR 출력 길이	1,600자	—	Qwen은 동급 성능에 5,800~6,100자

▲ 목차로 돌아가기

경쟁 모델과 비교 — 어떤 조건에서 유리한가

Mistral Small 4는 모든 상황에서 최선의 선택이 아닙니다. 어떤 조건에서 강하고, 어떤 조건에서 불리한지를 나눠서 보는 게 맞습니다.

항목	Mistral Small 4	GPT-4o-mini	Phi-4 (14B)	Qwen 3.5-122B
총 파라미터	119B (MoE)	미공개	14B	122B (MoE)
컨텍스트	256K	128K	16K	262K
이미지 입력	✅	✅	❌	✅
추론 모드 토글	✅ 요청별	❌	❌	✅
라이선스	Apache 2.0	상용	MIT	Apache 2.0
단일 GPU 배포	❌ 불가	API만 가능	✅ 가능	❌ 불가

개인 개발자나 소규모 팀이 단일 GPU에서 돌리려 한다면 Phi-4(14B)나 Mistral Small 3 시리즈가 현실적입니다. Mistral Small 4의 강점은 규모 있는 서버 환경에서 여러 모델을 하나로 줄이면서 성능도 유지할 때 나타납니다.

▲ 목차로 돌아가기

“무료 오픈소스”지만 집에서 못 돌리는 이유

Apache 2.0 라이선스라 누구나 무료로 받을 수 있는 건 사실입니다. 그런데 집에서 돌리기 위한 하드웨어 요건이 생각보다 훨씬 높습니다. 이 부분을 흘려듣다가 나중에 막히는 경우가 많습니다.

⚠️ 자체 호스팅 최소 요건 (Mistral AI 공식 문서 기준)

최소 구성: NVIDIA HGX H100 4장 또는 HGX H200 2장
권장 구성: HGX H100 4장 또는 HGX H200 4장 또는 DGX B200 2장
(출처: Mistral AI 공식 발표, 2026.03.17)

RTX 4090(24GB VRAM) 같은 소비자용 GPU로는 BF16 전체 가중치를 올릴 수 없습니다. 가능한 방법은 NVFP4 체크포인트를 써서 양자화하는 것인데, 이 경우에도 최소 H100 환경이 권장됩니다. llama.cpp와 Ollama 지원은 출시 당시 완전히 통합된 상태가 아니었습니다. Hugging Face 공식 모델 카드(2026.03.16)에는 Unsloth의 GGUF 파일이 제공된다고 나와 있지만, 정식 PR은 vLLM에서 1~2주 내 병합 예정이라고 명시돼 있었습니다.

그래서 현실적인 접근은 이렇습니다. 개인 테스트나 작은 규모의 실험이라면 Mistral API나 NVIDIA build.nvidia.com의 무료 프로토타이핑을 활용하는 게 훨씬 빠릅니다. 자체 서버에서 온프레미스로 돌릴 계획이 있고, 멀티 H100 환경이 있다면 그때 vLLM을 적용해볼 수 있습니다.

▲ 목차로 돌아가기

API로 쓸 때 알아야 할 실제 조건

Mistral API에서는 mistral-small-latest로 접근 가능합니다. 그런데 가격이 출시 시점인 2026년 3월 17일 기준으로 아직 공식 발표가 되지 않은 상태입니다. (출처: emelia.io 분석, 2026.03.17; Mistral AI 가격 페이지에서 별도 공지 예정)

💡 공식 발표 전 추정치를 실제 예산으로 잡으면 낭패를 볼 수 있습니다
Mistral AI 공식 가격 페이지를 반드시 직접 확인 후 예산을 산정하세요.

현재 확인 가능한 참고 수치는 LLM-Stats 데이터베이스에 등록된 값입니다. Mistral Small 4 기준 입력 $0.15/1M 토큰, 출력도 비슷한 수준으로 등록돼 있습니다. (출처: llm-stats.com, 2026.03 기준) 다만 이 수치는 서드파티 수집 데이터이며, Mistral 공식 확정 전 변동 가능성이 있습니다.

실제로 쓸 때 중요한 변수가 있습니다. reasoning_effort="high"를 켜면 출력 토큰 수가 크게 늘어납니다. 공식 발표에서는 이 모드를 복잡한 문제에만 선택적으로 적용하라고 권고하고 있습니다. (출처: Mistral AI 공식 발표, 2026.03.17) 모든 요청에 기본으로 켜두면 비용과 지연이 예상보다 높아집니다.

솔직히 말하면, 지금 당장 프로덕션 예산을 잡기보다는 NVIDIA NIM 무료 환경에서 실제 쓰임새를 먼저 검증하고, 공식 가격이 나오면 그때 비용 계산을 하는 순서가 맞습니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Mistral Small 4는 한국어를 지원하나요?

공식 지원 언어 목록에 한국어(Korean)가 포함돼 있습니다. 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어, 네덜란드어, 중국어, 일본어, 아랍어와 함께 수십 개 언어를 지원한다고 Hugging Face 모델 카드(2026.03.16)에 명시돼 있습니다. 다만 영어 대비 성능 차이가 있을 수 있으며, 이 부분은 Mistral AI가 공식 수치를 별도로 발표하지 않았습니다.

Ollama에서 바로 쓸 수 있나요?

출시 당시인 2026년 3월 기준으로 Ollama에서 바로 올리는 방법은 완전히 정식 지원이 아닌 상태였습니다. Unsloth가 제공하는 GGUF 파일을 통해 llama.cpp에서 시도할 수 있는 방법은 있으나, Hugging Face 모델 카드에는 vLLM을 권장하고 있고 llama.cpp 통합 PR이 진행 중이라고 명시돼 있습니다. 현재 상태는 Mistral AI 공식 채널에서 확인하는 것이 정확합니다.

119B 모델인데 왜 “작은(Small)” 모델인가요?

MoE 구조에서는 총 파라미터 수보다 실제 활성화 파라미터 수가 체감 성능에 더 가깝습니다. Mistral Small 4는 토큰당 6.5B만 활성화되기 때문에, Mistral의 네이밍 관례에서 Small 계열로 분류됩니다. 연산 비용 관점에서는 6~7B급 모델과 비슷하게 취급됩니다.

기존에 Mistral Small 3.2를 쓰고 있다면 마이그레이션해야 하나요?

추론이나 이미지 분석이 필요 없는 단순 채팅·분류·추출 작업만 쓴다면 Small 3.2로도 충분합니다. reasoning_effort="none" 상태의 Small 4는 Small 3.2와 비슷한 응답 스타일을 보입니다. 멀티모달, 복잡한 추론, 코딩 에이전트 기능이 필요하다면 Small 4가 훨씬 유리합니다.

Fine-tuning이 가능한가요?

Apache 2.0 라이선스이므로 상업적 파인튜닝도 가능합니다. Axolotl을 통한 파인튜닝 예제가 Hugging Face 모델 카드(2026.03.16)에 공식으로 제공됩니다. 엔터프라이즈 규모의 온프레미스 파인튜닝은 NVIDIA NeMo 연동도 지원합니다.

▲ 목차로 돌아가기

마치며 — 무엇을 사용할 사람에게 맞는 모델인가

Mistral Small 4는 세 가지 조건이 맞을 때 강합니다. 멀티모달·추론·코딩을 한꺼번에 써야 할 때, 데이터 주권이나 GDPR 같은 이유로 온프레미스가 필요할 때, 그리고 멀티 H100 이상의 서버 인프라가 이미 있을 때입니다.

반대로 개인 프로젝트, 단일 GPU 환경, 또는 단순 텍스트 작업만 있다면 굳이 Small 4를 선택할 이유가 없습니다. Apache 2.0이라 무료인 건 맞지만, 하드웨어 비용을 포함하면 그냥 API를 쓰는 게 훨씬 저렴합니다.

개인적으로 가장 흥미롭게 본 부분은 reasoning_effort 파라미터입니다. 한 모델 안에서 요청 단위로 추론 깊이를 조절한다는 설계가 실제 운영 비용에 직접 영향을 줍니다. 아직 가격이 공식 발표되지 않았으니 지금은 NVIDIA NIM에서 먼저 써보면서 판단하는 게 맞습니다.

📎 본 포스팅 참고 자료

Mistral AI 공식 발표 — Introducing Mistral Small 4
https://mistral.ai/news/mistral-small-4
Hugging Face 공식 모델 카드 — mistralai/Mistral-Small-4-119B-2603 (2026.03.16)
https://huggingface.co/mistralai/Mistral-Small-4-119B-2603
NVIDIA NIM — mistral-small-4-119b-2603 Model Card (2026.03.16)
https://build.nvidia.com/mistralai/mistral-small-4-119b-2603
emelia.io — Mistral Small 4 Complete Guide Benchmarks (2026.03.17)
https://emelia.io/hub/mistral-small-4-complete-guide-benchmarks
LLM-Stats — Mistral AI 모델 가격 데이터베이스
https://llm-stats.com/providers/mistral

본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 공식 수치는 Mistral AI 공식 발표(2026.03.17) 및 Hugging Face 모델 카드(2026.03.16) 기준이며, 출시 이후 업데이트로 내용이 달라질 수 있습니다. Mistral AI API 가격은 2026년 3월 26일 현재 공식 미발표 상태로, 반드시 Mistral AI 공식 가격 페이지에서 직접 확인하시기 바랍니다.

AI모델비교, 오픈소스LLM, Mistral Small 4, MistralAI, MoE아키텍처

Mistral Small 4, “하나면 충분”이라는 말이 맞을까요?

Mistral Small 4, “하나면 충분”이라는 말이 맞을까요?

119B라고 했는데 실제 연산은 6.5B — MoE 구조 이해

모델 3개가 1개로 — 통합이 실제로 의미하는 것

벤치마크 수치, 직접 읽는 법

경쟁 모델과 비교 — 어떤 조건에서 유리한가

“무료 오픈소스”지만 집에서 못 돌리는 이유

API로 쓸 때 알아야 할 실제 조건

자주 묻는 질문 5가지

마치며 — 무엇을 사용할 사람에게 맞는 모델인가

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, “하나면 충분”이라는 말이 맞을까요?

Mistral Small 4, “하나면 충분”이라는 말이 맞을까요?

119B라고 했는데 실제 연산은 6.5B — MoE 구조 이해

모델 3개가 1개로 — 통합이 실제로 의미하는 것

벤치마크 수치, 직접 읽는 법

경쟁 모델과 비교 — 어떤 조건에서 유리한가

“무료 오픈소스”지만 집에서 못 돌리는 이유

API로 쓸 때 알아야 할 실제 조건

자주 묻는 질문 5가지

마치며 — 무엇을 사용할 사람에게 맞는 모델인가

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기