📅 2026.03.30 기준
Mistral Small 4 · 2026-03 버전
Apache 2.0 오픈소스

Mistral Small 4 써봤더니 모델 3개가 사라졌습니다

추론용 Magistral, 이미지용 Pixtral, 코딩용 Devstral — 이 세 개를 따로 굴리던 시대가 끝났습니다. Mistral Small 4는 2026년 3월 16일 공식 출시된 단일 모델로, 세 기능을 하나의 엔드포인트로 통합했습니다. 그리고 이게 생각보다 훨씬 실용적입니다.

119B

총 파라미터

실제 활성 파라미터

256K

컨텍스트 윈도우

3×

처리량 향상

119B인데 왜 소형 모델처럼 빠른가

Mistral Small 4의 총 파라미터는 119B입니다. 숫자만 보면 “로컬에서 돌리려면 H100 한 트럭 필요하겠다”는 생각이 드는 게 당연합니다. 그런데 막상 공식 문서를 보면 전혀 다릅니다. MoE(Mixture of Experts) 구조로 설계된 이 모델은 토큰 하나를 처리할 때 128개 전문가(Expert) 중 딱 4개만 활성화됩니다. 결국 실제로 연산에 관여하는 파라미터는 6~6.5B에 불과합니다.
(출처: Mistral AI 공식 블로그, 2026.03.16)

이게 실제로 어떤 의미냐 하면, 응답 속도는 소형 모델 수준인데 품질은 119B 전체 용량에서 나온다는 얘기입니다. Mistral 공식 발표 기준으로 지연 시간 최적화 설정에서 전작 Mistral Small 3 대비 완성 시간 40% 감소, 처리량 최적화 설정에서 초당 요청 수 3배 증가가 확인됩니다.
(출처: Hugging Face 모델 카드 mistralai/Mistral-Small-4-119B-2603, 2026.03.16)

36개 트랜스포머 레이어, 히든 사이즈 4096, 32개 어텐션 헤드로 구성되어 있고, 비전 컴포넌트(Pixtral 스택)가 24개 레이어로 별도로 붙어 있습니다. 텍스트와 이미지를 동시에 처리할 수 있는 구조가 처음부터 설계에 들어가 있는 거지, 나중에 붙인 게 아닙니다.

▲ 목차로 돌아가기

reasoning_effort — 이 파라미터 하나가 핵심입니다

💡 공식 발표문과 실제 API 동작을 같이 놓고 보니 이 파라미터 하나가 사실상 “모델 요금제 선택”처럼 작동한다는 게 보였습니다.

Mistral Small 4의 가장 실용적인 기능은 reasoning_effort 파라미터입니다. 요청마다 값을 바꿀 수 있고, 선택지는 두 가지입니다.

reasoning_effort=”none”

빠른 일상 응답 모드. 이전 Mistral Small 3.2와 동일한 채팅 스타일로 작동합니다. 가볍고 저렴하게 쓸 수 있는 구간입니다.

reasoning_effort=”high”

깊은 추론 모드. Magistral 모델과 동급 수준의 단계별 사고 출력이 나옵니다. 복잡한 문제에서는 이게 맞습니다.

실무적으로 생각하면 이렇습니다. 고객 응대 챗봇에는 none, 수학 문제 풀이나 코드 디버깅에는 high로 요청마다 다르게 넣으면 됩니다. 한 모델로 두 가지 역할을 분리해서 쓰는 거라서, 별도 엔드포인트를 관리할 필요가 없습니다. 온도(temperature) 설정은 none일 때 0.0~0.7, high일 때 0.7을 권장한다고 공식 문서에 나와 있습니다.
(출처: Hugging Face 모델 카드, 2026.03.16)

▲ 목차로 돌아가기

짧은 답변이 더 좋은 점수를 받는 구조

💡 벤치마크 점수만 보는 사람이 자주 놓치는 부분이 있습니다. 같은 점수를 내더라도 출력 길이가 얼마인지가 실제 비용과 지연 시간에 직결됩니다.

많은 블로그가 벤치마크 숫자만 비교하는데, Mistral이 공식 발표에서 강조한 건 “점수 대비 출력 길이”입니다. 같은 성능을 내는 데 얼마나 짧게 답변하느냐가 추론 비용과 지연 시간을 결정하기 때문입니다. 공식 발표 수치를 직접 확인했습니다.

모델	LCR 점수	출력 길이 (Instruct)	LiveCodeBench	출력 길이 (Instruct)
Mistral Small 4	0.72	약 1.6K자	64	약 2.1K자
Qwen3.5 122B	0.72 수준	약 5.8~6.1K자	높음	—
GPT-OSS 120B	—	—	63	약 23.6K자
Claude Haiku	—	약 14.2K자	높음	—

(출처: Mistral AI 공식 블로그, VentureBeat 2026.03.20 보도, Hugging Face 모델 카드 — 2026.03.16 기준)

Qwen 모델이 LCR에서 비슷한 점수를 내는 데 출력을 3.5~4배 더 쏟아낸다는 게 핵심입니다. 실제 추론 비용은 토큰 수에 비례하기 때문에, 같은 예산으로 처리할 수 있는 요청 수가 그만큼 더 많아집니다. LiveCodeBench에서는 GPT-OSS 120B를 이기면서 출력은 10배 이상 짧습니다.

▲ 목차로 돌아가기

로컬 배포할 때 반드시 알아야 할 것

⚠️ 주의: 출시일(2026.03.16) 기준으로 vLLM 본체에 Mistral Small 4 관련 PR이 아직 병합되지 않았습니다. 표준 vLLM으로 바로 서빙하면 tool calling과 reasoning 파싱이 제대로 안 됩니다.

Hugging Face 공식 모델 카드에 이렇게 나와 있습니다. “Use our custom Docker image with fixes for tool calling and reasoning parsing in vLLM. We are working with the vLLM team to merge these fixes soon.” 즉, 표준 pip install vllm으로는 아직 제대로 안 됩니다. Mistral이 따로 만든 Docker 이미지(mistralllm/vllm-ms4:latest)를 써야 하고, PR 병합은 출시 이후 1~2주 내 예상이라고 명시했습니다.
(출처: Hugging Face 모델 카드, 2026.03.16)

로컬에서 간단히 써보는 건 Ollama나 LM Studio가 더 빠릅니다. 4bit 양자화 버전 기준 VRAM 약 60GB가 필요하고, 16bit 풀프리시전은 약 240GB입니다. 실질적으로 개인이 풀프리시전으로 돌리기는 어렵고, 양자화해서 테스트 수준으로 쓰거나 API를 활용하는 게 현실적입니다. 최소 운영 환경은 NVIDIA HGX H100 4장 또는 DGX B200 1장이고, 이건 공식 권장 사항 그대로입니다.
(출처: Mistral AI 공식 블로그, 2026.03.16)

파인튜닝은 QLoRA로 A100 80GB 1장에서 가능합니다. 수천 건 고품질 데이터로 몇 시간이면 도메인 특화 파인튜닝이 끝납니다. Axolotl 라이브러리에 공식 예제도 올라와 있습니다.

▲ 목차로 돌아가기

Qwen, Claude Haiku와 실제로 어디서 갈리나

VentureBeat 2026년 3월 20일 보도에서 직접 나온 말입니다. “Small 4 still performs below other popular open-source models, especially in reasoning-intensive tasks. Qwen 3.5 122B and Qwen 3-next 80B outperform Small 4 on LiveCodeBench, as does Claude Haiku in instruct mode.” 공식 홍보와는 달리, 순수 추론 집중 태스크에서는 Qwen이 앞섭니다. Mistral 측 발표 자료도 자사 내부 모델과 비교한 그래프가 중심이라는 점은 눈여겨볼 부분입니다.

💡 벤치마크 그래프를 공식 발표문과 제3자 보도 기준으로 교차 확인하면, Mistral Small 4의 강점이 “점수 자체”가 아니라 “점수 대비 출력 효율”에 있다는 게 더 선명하게 드러납니다.

Claude Haiku는 Instruct 모드에서 LCR 기준 약 14,200자를 출력하는 데, Mistral Small 4는 같은 벤치마크에서 약 2,100자로 끝냅니다. 성능 수치가 비슷한 구간에서 토큰 효율이 이만큼 차이 나면 대규모 배포 환경에서는 비용 격차가 상당히 벌어집니다. 반면 코딩 최고 성능이나 AIME 수학 추론 최상위 점수를 원한다면 Qwen이나 Claude Sonnet 계열이 여전히 앞서 있는 것도 사실입니다.

정리하면 Mistral Small 4는 “가장 똑똑한 모델”을 노린 게 아니라, “적당히 똑똑하면서 실제 운영 비용이 가장 낮은 통합 모델”을 노린 포지셔닝입니다. 이 포인트를 모르고 쓰면 기대와 결과가 어긋납니다.

▲ 목차로 돌아가기

Apache 2.0이 이 모델을 다르게 만드는 이유

Mistral Small 4는 Apache 2.0 라이선스로 공개됩니다. 이게 중요한 이유는 단순히 “무료”라서가 아닙니다. 상업적 사용, 수정, 재배포 모두 자유롭고, 사용자 수나 매출 규모에 따른 제한도 없습니다. Meta의 LLaMA 라이선스는 특정 사용자 수 이상이면 별도 허가가 필요한 반면, Apache 2.0은 그런 조건이 없습니다.

제품 핵심에 LLM을 집어넣는 기업 입장에서는 이 차이가 큽니다. API 공급자가 가격을 올리거나 약관을 바꾸는 순간 대응이 불가능한 구조 대신, 직접 서빙 파이프라인을 소유할 수 있습니다. 민감한 데이터를 외부로 보낼 수 없는 환경이라면 더욱 그렇습니다.

Mistral은 이와 함께 NVIDIA Nemotron Coalition 창립 멤버로 참여했습니다. NVIDIA NIM으로 Day-0 배포가 가능하고, NeMo 파인튜닝 파이프라인도 공식 지원합니다. 엔터프라이즈 배포 경로가 출시 첫날부터 열려 있다는 점은 오픈소스 모델로서는 드문 케이스입니다.
(출처: Mistral AI 공식 블로그, 2026.03.16)

▲ 목차로 돌아가기

Q&A

Q1. Mistral Small 4는 진짜로 추론, 비전, 코딩을 하나의 API로 쓸 수 있나요?

맞습니다. 공식 문서 기준으로 텍스트+이미지 입력, 함수 호출(Function Calling), 구조화 출력(JSON), 그리고 reasoning_effort 파라미터를 통한 추론 모드 전환이 단일 엔드포인트에서 모두 됩니다. Magistral, Pixtral, Devstral을 따로 관리할 필요가 없어집니다.

Q2. 개인 노트북으로 로컬에서 돌릴 수 있나요?

4bit 양자화 기준 약 60GB VRAM이 필요합니다. 일반 소비자 GPU 한 장으로는 무리입니다. Ollama로 GGUF 양자화 버전을 시도하는 건 가능하지만, 성능 저하가 있고 긴 컨텍스트 작업에서는 멀티 GPU가 필요합니다. API를 통해 쓰거나 클라우드 A100에서 돌리는 게 현실적입니다.

Q3. 기존에 OpenAI API로 짜둔 코드를 그대로 쓸 수 있나요?

Mistral API와 vLLM 서버 모두 OpenAI 호환 엔드포인트를 제공합니다. base URL만 바꾸면 대부분의 코드가 그대로 동작합니다. 단, reasoning_effort 같은 Mistral 전용 파라미터는 추가로 넣어야 하고, 로컬 vLLM 배포라면 현재 커스텀 Docker 이미지를 써야 한다는 점은 유의해야 합니다.

Q4. Qwen이나 Claude Haiku 대신 써야 할 이유가 있나요?

최고 점수 벤치마크만 보면 Qwen이 앞서는 구간이 있습니다. Claude Haiku는 instruct 모드에서 경쟁적입니다. 그러나 Apache 2.0 라이선스로 데이터를 외부로 보내지 않고, 파인튜닝해서 사내에 배포하고, 추론·비전·코딩을 하나의 엔드포인트로 관리하고 싶은 팀이라면 Mistral Small 4가 현실적인 선택지입니다. “가장 똑똑함”이 목적이 아니라 “운영 효율”이 목적일 때 맞습니다.

Q5. 파인튜닝하면 얼마나 걸리고 얼마나 드나요?

QLoRA 방식으로 A100 80GB 클라우드 인스턴스를 빌려서 수천 건 예제로 파인튜닝하면 총 비용 10~50달러(약 1~6만 원) 수준으로 마칠 수 있습니다. 고품질 데이터 수백~수천 건이면 도메인 적응에 충분한 변화가 나옵니다. Mistral이 공식적으로 Axolotl 예제를 제공하고 있어서 설정 부담도 크지 않습니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4는 “더 나은 LLM”이라기보다 “모델 관리 피로를 줄이는 방향”의 선택입니다. 추론, 이미지 이해, 코딩 에이전트를 별도 모델로 굴리던 팀이라면 실질적으로 파이프라인이 단순해집니다. 반면 AIME나 LiveCodeBench 최상위 점수가 필요한 연구 환경에서는 Qwen 계열이 여전히 앞서 있고, 이 부분은 솔직하게 인정해야 합니다.

개인적으로 가장 실용적인 포인트는 reasoning_effort 파라미터입니다. 요청마다 무거운 추론과 가벼운 채팅을 선택할 수 있다는 게, 한 모델로 비용을 최적화하는 가장 직관적인 방법입니다. Apache 2.0 라이선스에 데이터 주권을 챙기고 싶은 팀이라면, 지금 가장 먼저 테스트해볼 만한 오픈소스 모델입니다.

본 포스팅 참고 자료

Mistral AI 공식 블로그 — Introducing Mistral Small 4 (https://mistral.ai/news/mistral-small-4)
Hugging Face 공식 모델 카드 — mistralai/Mistral-Small-4-119B-2603 (https://huggingface.co/mistralai/Mistral-Small-4-119B-2603)
VentureBeat — “Mistral’s Small 4 consolidates reasoning, vision and coding into one model” 2026.03.20 (venturebeat.com)
NVIDIA NIM API — mistral-small-4-119b-2603 모델 카드 (build.nvidia.com)
Mistral AI 공식 문서 — Frontier Models (docs.mistral.ai)

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 스펙은 2026년 3월 30일 기준이며, Mistral AI의 업데이트에 따라 내용이 달라질 수 있습니다. API 가격, 라이선스 세부 조건, 하드웨어 요구 사항은 공식 문서를 직접 확인하시기 바랍니다.

Mistral Small 4 써봤더니 모델 3개가 사라졌습니다

119B인데 왜 소형 모델처럼 빠른가

reasoning_effort — 이 파라미터 하나가 핵심입니다

짧은 답변이 더 좋은 점수를 받는 구조

로컬 배포할 때 반드시 알아야 할 것

Qwen, Claude Haiku와 실제로 어디서 갈리나

Apache 2.0이 이 모델을 다르게 만드는 이유

Q&A

마치며

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4 써봤더니 모델 3개가 사라졌습니다

Mistral Small 4 써봤더니 모델 3개가 사라졌습니다

119B인데 왜 소형 모델처럼 빠른가

reasoning_effort — 이 파라미터 하나가 핵심입니다

짧은 답변이 더 좋은 점수를 받는 구조

로컬 배포할 때 반드시 알아야 할 것

Qwen, Claude Haiku와 실제로 어디서 갈리나

Apache 2.0이 이 모델을 다르게 만드는 이유

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기