Mistral Small 4, 119B인데 왜 Small일까요?

Published on

in

Mistral Small 4, 119B인데 왜 Small일까요?

2026.03.17 공개 기준
v26.03 / 119B-2603
Apache 2.0 오픈소스

Mistral Small 4, 119B인데 왜 Small일까요?

결론부터 말씀드리면, 이름의 “Small”은 파라미터 총량이 아니라 실제 추론에 사용되는 활성 파라미터 수(6.5B)를 기준으로 붙인 겁니다. 총 119B 중 한 번에 쓰이는 건 6.5B뿐이라는 구조가 핵심입니다.

119B
총 파라미터
6.5B
토큰당 활성 파라미터
256k
컨텍스트 윈도우
$0.15
입력 1M 토큰

119B인데 왜 ‘Small’이라고 부를까요?

Mistral Small 4의 총 파라미터는 119B입니다. 그런데 Mistral은 이 모델에 “Small”이라는 이름을 붙였습니다. 언뜻 보면 이상하게 느껴지는데, 이게 MoE(Mixture of Experts) 아키텍처 때문입니다.

💡 공식 발표문과 HuggingFace 모델 카드의 수치를 같이 보면 이런 차이가 보였습니다. 모델 크기 = 추론 비용이라는 등식이 MoE에서는 성립하지 않습니다.

모델 내부에는 128개의 전문가(Expert) 레이어가 있고, 토큰 하나를 처리할 때 그 중 4개만 활성화됩니다. 결과적으로 실제 추론에 사용되는 파라미터는 6.5B이고, 임베딩·출력 레이어를 포함해도 8B 수준입니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

이게 실생활에서 의미하는 건 간단합니다. 7B 소형 모델과 거의 비슷한 추론 비용을 쓰면서, 실제 지식은 119B 규모의 전문가 풀에서 끌어온다는 뜻입니다.

▲ 목차로 돌아가기

세 가지 모델이 하나로 — 뭐가 합쳐진 건가요?

Mistral Small 4 이전에는 목적별로 모델을 따로 써야 했습니다. 추론이 필요하면 Magistral, 코딩 에이전트에는 Devstral, 멀티모달 작업에는 Pixtral을 각각 호출하는 식이었죠.

기존 모델 용도 Small 4에서
Magistral 수학·추론 reasoning_effort=”high”
Devstral 코딩 에이전트 기본 포함 (함수 호출)
Pixtral 이미지 이해 멀티모달 기본 탑재

단일 모델로 통합됐다는 건 API 호출 구조를 단순화할 수 있다는 의미입니다. 에이전트 파이프라인에서 “이 작업은 어떤 모델 엔드포인트로 보낼까”를 고민할 필요가 줄어듭니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

▲ 목차로 돌아가기

추론 모드가 있는데, 선택지가 딱 두 개입니다

Mistral Small 4는 reasoning_effort 파라미터로 추론 깊이를 제어합니다. 그런데 이 파라미터에서 유효한 값은 공식 문서 기준으로 딱 두 가지입니다.

reasoning_effort=”none”

빠른 응답. 이전 Mistral Small 3.2와 동일한 스타일. 일상적인 질의응답에 적합합니다. 권장 Temperature: 0.0~0.7

reasoning_effort=”high”

단계별 심층 추론. 이전 Magistral 모델 수준의 출력. 복잡한 수식·코딩 문제에 사용. 권장 Temperature: 0.7

여기서 걸립니다. GPT-O 시리즈처럼 “medium” 같은 중간 단계가 없습니다. Reddit 커뮤니티(r/LocalLLaMA)에서도 이 부분이 거론됐는데, “원래 여러 단계를 학습시키려 했는데 “high”와 “none” 두 단계만 제대로 학습된 것 같다”는 의견이 나왔습니다. (출처: r/LocalLLaMA, 2026.03.16)

실사용 관점에서 보면, 중간 복잡도의 작업에서는 “none”과 “high” 중 뭘 써야 할지 판단하는 비용이 생깁니다. “none”은 너무 가볍고, “high”는 과하게 길어질 수 있어서입니다. (확인 필요: 향후 “medium” 옵션 추가 가능성)

▲ 목차로 돌아가기

Qwen보다 출력이 짧은 게 실제로 의미하는 것

Mistral이 공개한 벤치마크 데이터에 이런 수치가 있습니다. AA LCR 기준으로 Mistral Small 4는 점수 0.72를 기록하면서 평균 출력 길이는 1.6K 문자입니다. 반면 비슷한 성능의 Qwen 모델들은 동일 작업에서 5.8~6.1K 문자를 생성합니다.

계산하면: Qwen 대비 출력 토큰이 약 3.5~4배 짧습니다. 토큰 과금 구조에서는 출력 토큰이 입력 토큰보다 더 비쌉니다. Mistral API 기준 출력은 1M당 $0.60인데, 이 차이가 대규모 호출에서 직접적인 비용 절감으로 이어집니다. (출처: Mistral AI HuggingFace 모델 카드, 2026.03.16)

LiveCodeBench에서도 GPT-OSS 120B를 성능에서 넘어서면서 출력 길이는 20% 더 짧았습니다. 이게 핵심입니다. “더 길게 생각할수록 더 잘한다”는 추론 모델의 일반적인 패턴과 반대로, 짧게 출력하면서도 동급 이상 성능을 낸다는 점이 실사용에서의 차별화 포인트입니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

단, 이 수치는 Mistral 내부 벤치마크 기반입니다. 독립 기관의 검증 결과는 아직 나오지 않은 시점입니다. (확인 필요: 2026년 4월 이후 LMSYS 등 외부 평가 결과)

▲ 목차로 돌아가기

로컬에서 돌려보니 이 단계에서 막혔습니다

공식 발표문을 보면 vLLM, llama.cpp, LM Studio, SGLang을 지원한다고 돼 있습니다. 그런데 발표 직후 실제로 돌려본 사용자들의 후기는 다른 그림을 그립니다.

⚠️ 주의: llama.cpp 기반 퀀트에서 코딩 결과물이 중간에 잘리거나 기본 Python 코드가 컴파일 안 되는 문제가 보고됐습니다. 같은 테스트를 Qwen 3.5 4B(훨씬 작은 모델)에서 돌렸을 때 성공한 HTML UI 클로닝 작업이 Mistral Small 4에서 실패한 사례도 있었습니다. (출처: r/LocalLLaMA, 2026.03.16)

중요한 맥락이 있습니다. HuggingFace에 가중치가 올라온 시점이 LM Studio 커뮤니티 퀀트 업로드보다 약 6시간 늦었습니다. 즉 공식 가중치 공개 전에 이미 퀀트 변환이 이루어진 경우가 있었고, 퀀트 품질 문제일 가능성이 높습니다.

HuggingFace 공식 페이지에서는 현재 vLLM 전용 커스텀 Docker 이미지(mistralllm/vllm-ms4:latest)를 사용할 것을 권장합니다. 이 PR이 vLLM 메인에 합쳐지는 건 2026년 3월 말 예정으로 돼 있습니다. (출처: HuggingFace 모델 카드, 2026.03.16)

▲ 목차로 돌아가기

API 가격, GPT-4o mini와 나란히 놓으면

Mistral Small 4의 공식 API 가격은 입력 1M 토큰당 $0.15, 출력 1M 토큰당 $0.60입니다. (출처: docs.mistral.ai, 2026.03.16)

모델 입력 (1M) 출력 (1M) 컨텍스트
Mistral Small 4 $0.15 $0.60 256k
GPT-4o mini $0.15 $0.60 128k
Claude Haiku 3.5 $0.80 $4.00 200k

※ 위 GPT-4o mini, Claude Haiku 3.5 가격은 공개된 공식 시점 기준이며, 변경될 수 있습니다. (확인 필요: 각 공식 홈페이지 최신 요금표)

가격만 보면 GPT-4o mini와 동일한데, 컨텍스트 윈도우는 256k로 두 배입니다. 추론 기능과 멀티모달까지 포함된 걸 감안하면, 동일 가격대에서 스펙상 우위가 있습니다. 다만 한국어 성능이나 실제 코딩 품질은 독립적인 벤치마크가 쌓인 이후에 판단하는 게 정확합니다.

▲ 목차로 돌아가기

Q&A

Q. Mistral Small 4는 완전 무료로 쓸 수 있나요?
모델 가중치 자체는 Apache 2.0 라이선스로 완전 오픈소스입니다. HuggingFace에서 무료로 내려받아 로컬에 설치할 수 있습니다. 다만 직접 구동하려면 NVIDIA HGX H100 4장 이상의 인프라가 필요합니다. Mistral API나 Le Chat을 통해 사용하는 경우 유료 토큰 과금이 적용됩니다. (출처: Mistral AI 공식 블로그, 2026.03.17)
Q. 일반 소비자 GPU(예: RTX 4090)로는 구동이 되나요?
공식 최소 사양은 NVIDIA HGX H100 4장, H200 2장, 또는 DGX B200 1장입니다. RTX 4090 단일로는 동작하지 않습니다. 다만 커뮤니티에서는 “NVFP4 퀀트를 쓰면 RTX Pro 6000 단일로 돌린다”는 의견이 있었습니다. 퀀트 품질과 안정성은 아직 검증 중입니다. (출처: r/LocalLLaMA, 2026.03.16; Mistral AI 공식 HuggingFace, 2026.03.16)
Q. 한국어 지원은 어느 수준인가요?
공식 문서에 한국어(Korean)가 지원 언어 목록에 포함돼 있습니다. 그러나 로컬 실행 테스트에서 “아시아권 언어 작성 시 영어, 중국어, 러시아어가 혼합된다”는 사례가 보고됐습니다. 이는 퀀트 문제일 가능성이 높고, API 직접 호출 시에는 다른 결과가 나올 수 있습니다. (확인 필요: API 기준 한국어 품질 독립 테스트 결과)
Q. Mistral Small 4와 이전 Mistral Small 3.2의 차이는 무엇인가요?
Small 3.2는 24B 단일 Dense 모델로, 텍스트 위주였습니다. Small 4는 119B MoE 구조로 파라미터 풀이 훨씬 크고, 추론 모드와 이미지 입력이 추가됐습니다. 공식 문서에 따르면 reasoning_effort=”none” 설정 시 Small 3.2와 동일한 스타일로 동작합니다. 속도는 Small 3 대비 지연 시간 40% 감소, 처리량 3배 증가입니다. (출처: HuggingFace 모델 카드, 2026.03.16)
Q. 파인튜닝은 어떻게 하나요?
Apache 2.0 라이선스이므로 상업적 파인튜닝도 가능합니다. 공식적으로는 Axolotl 프레임워크 지원이 확인됐고, NVIDIA NeMo를 통한 도메인 특화 파인튜닝도 가능합니다. 엔터프라이즈 커스텀 배포가 필요하면 Mistral AI 팀에 직접 문의하는 방식으로 지원받을 수 있습니다. (출처: HuggingFace 모델 카드, 2026.03.16)

▲ 목차로 돌아가기

마치며

Mistral Small 4는 이름이 주는 인상과 실제 스펙 사이의 간극이 큰 모델입니다. 119B라는 숫자에 주눅들 필요 없고, 그렇다고 “그냥 7B급 모델”로 얕볼 수도 없는 구조입니다. MoE 덕분에 추론 비용은 소형 모델 수준이지만, 실제로 참조하는 지식 풀은 훨씬 넓습니다.

솔직히 말하면, 지금 당장 로컬에서 llama.cpp로 돌려보는 건 시기상조입니다. 발표 직후라 퀀트 품질이 불안정하고, vLLM 공식 지원도 3월 말 이후 안정화될 예정입니다. API로 먼저 테스트하고, 실제 작업에서 기존 모델 대비 출력 품질과 토큰 수를 직접 비교해보는 게 가장 빠른 판단 방법입니다.

무엇보다 reasoning_effort의 두 단계 제약로컬 구동 인프라 요구사항을 실제 사용 전에 먼저 확인해두는 걸 권합니다. 이 두 가지가 사용 환경과 안 맞으면, 스펙상 매력적인 수치들이 실용 가치를 내기 어렵습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Mistral AI 공식 블로그 — https://mistral.ai/news/mistral-small-4 (2026.03.17)
  2. Mistral AI 공식 문서 (모델 스펙·가격) — https://docs.mistral.ai/models/mistral-small-4-0-26-03 (2026.03.16)
  3. HuggingFace 공식 모델 카드 — https://huggingface.co/mistralai/Mistral-Small-4-119B-2603 (2026.03.16)

본 포스팅은 2026년 3월 19일 기준으로 공개된 공식 자료를 바탕으로 작성됐습니다. Mistral Small 4(v26.03)는 발표 직후 단계로, 본 포스팅 작성 이후 서비스 정책·API 가격·UI·기능·지원 프레임워크가 변경될 수 있습니다. 로컬 구동 관련 사항은 특히 빠르게 업데이트되므로 HuggingFace 공식 모델 카드 및 Mistral 공식 문서를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기