Mistral Small 4, 119B라더니 실제론 6.5B만 씁니다

Published on

2026년 3월 23일

2026.03.16 출시
Mistral Small 4 (119B-2603) 기준
Apache 2.0

Mistral Small 4, 119B라더니 실제론 6.5B만 씁니다

Mistral AI가 2026년 3월 16일 공개한 Mistral Small 4. 숫자만 보면 119B 파라미터 대형 모델이지만, 실제로 토큰 하나를 처리할 때 작동하는 파라미터는 6.5B뿐입니다. 공식 문서에 그대로 나와 있는 이야기인데 이게 왜 중요한지, 그리고 “비전 기능 통합”이라는 발표 뒤에 가려진 심각한 문제까지 정리했습니다.

119B

총 파라미터

6.5B

실제 활성 파라미터

256k

컨텍스트 길이

$0.15

입력 100만 토큰당

119B인데 왜 6.5B처럼 빠른가 — MoE 구조의 실체

Mistral Small 4의 공식 모델 카드에는 이렇게 나옵니다. “119B parameters, with 6.5B activated per token.” (출처: HuggingFace 공식 모델 카드, 2026.03.16) 119B 파라미터를 전부 쓰는 게 아니라, 토큰 하나를 처리할 때는 128개의 전문가(expert) 중 딱 4개만 선택해서 씁니다. 실제 연산 부담은 6.5B짜리 모델과 비슷합니다.

이게 MoE(Mixture of Experts) 구조의 핵심입니다. 모든 파라미터를 항상 켜두는 밀집(dense) 모델과 달리, MoE는 입력에 따라 필요한 전문가만 골라 씁니다. Mistral Small 4의 경우 128명의 전문가가 있고 매 토큰마다 4명만 호출됩니다. 119B라는 숫자는 ‘보유 역량의 총합’이고, 실제 처리 속도와 비용은 ‘동시에 투입되는 역량’인 6.5B 기준으로 움직입니다.

공식 발표에서는 Mistral Small 3 대비 지연 최적화 환경에서 완성 시간이 40%, 처리량 최적화 환경에서는 초당 요청 수가 3배 빨라졌다고 합니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16) 119B 모델인데 속도가 이 수준인 이유가 바로 이 구조입니다.

💡 공식 모델 카드와 실제 인퍼런스 비용 구조를 같이 놓고 보면 이런 차이가 보입니다. 119B짜리 dense 모델을 돌리는 것과 VRAM 점유량은 비슷하지만, 실제 연산 처리 속도는 6.5B 수준으로 나옵니다. 모델 크기로 성능을 가늠하던 기준이 MoE 앞에서는 맞지 않습니다.

▲ 목차로 돌아가기

Mistral이 모델 3개를 하나로 합친 이유

Mistral Small 4 이전에는 Mistral Small(일반 채팅), Magistral(추론), Devstral(에이전트 코딩), Pixtral(멀티모달)이 각각 따로 있었습니다. 개발팀 입장에서는 작업마다 모델을 바꿔가며 API를 연결하는 구조였습니다. Mistral Small 4는 이 네 가지 역할을 하나의 모델에서 처리하도록 설계했습니다.

Apache 2.0 라이선스로 공개돼 있어 상업적 이용과 파인튜닝이 모두 가능합니다. HuggingFace에는 일반 FP8 버전, 양자화용 NVFP4 버전, 추론 가속을 위한 Eagle 헤드 버전까지 세 가지 체크포인트가 올라와 있습니다. (출처: huggingface.co/mistralai/Mistral-Small-4-119B-2603, 2026.03.16)

NVIDIA NIM으로도 day-0 지원이 시작됐고, build.nvidia.com에서 프로토타입용으로 무료 테스트가 가능합니다. Mistral이 NVIDIA Nemotron Coalition의 창립 멤버로 참여한 것도 이번 Small 4 발표와 함께 나온 내용입니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)

▲ 목차로 돌아가기

reasoning_effort 파라미터, 실제로 뭐가 달라지나

Mistral Small 4의 핵심 기능 중 하나가 reasoning_effort 파라미터입니다. API 요청 시 이 값을 "none"으로 설정하면 Mistral Small 3.2 수준의 빠른 응답이 나오고, "high"로 올리면 이전 Magistral 모델과 비슷한 단계적 추론 방식으로 작동합니다. (출처: huggingface.co/mistralai/Mistral-Small-4-119B-2603, 2026.03.16)

기존 방식이라면 “이 요청은 추론이 필요하니까 Magistral API로”, “저 요청은 빠르게 처리하면 되니까 Small API로” 하며 라우팅 로직을 짰어야 합니다. Small 4에서는 같은 엔드포인트에 파라미터 하나만 바꾸면 됩니다. 운영 중인 서비스에서 모델을 추가로 띄울 필요 없이 요청 수준에서 추론 깊이를 조절할 수 있다는 게 실제 개발 환경에서 의미하는 바입니다.

단, 추천 온도(temperature) 설정이 다릅니다. reasoning_effort="high"일 때는 0.7, reasoning_effort="none"일 때는 작업 유형에 따라 0.0~0.7 사이로 조정하는 게 공식 가이드입니다. 이 부분을 놓치면 추론 모드에서 예상과 다른 결과가 나올 수 있습니다.

▲ 목차로 돌아가기

벤치마크 수치가 말하지 않는 것 — 출력 길이 비교

Mistral의 공식 발표에서 눈에 띄는 비교 수치가 있습니다. AA LCR 벤치마크에서 Mistral Small 4는 점수 0.72를 기록하면서 출력 길이가 1,600자였습니다. Qwen 계열 모델이 비슷한 점수를 내려면 5,800~6,100자가 필요했습니다. 출력 길이가 3.5~4배 차이 납니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)

LiveCodeBench에서도 Small 4가 GPT-OSS 120B보다 높은 점수를 내면서 출력은 20% 짧았습니다. 이게 단순히 “더 잘한다”는 의미가 아닙니다. API 과금 구조는 출력 토큰 기준이기 때문에, 같은 작업을 처리할 때 발생하는 실제 비용이 다릅니다. 출력이 짧으면 비용도 내려갑니다.

모델	AA LCR 점수	출력 길이	입력 토큰 단가
Mistral Small 4	0.72	약 1,600자	$0.15/1M
Qwen 계열 (동급 점수)	0.72 수준	5,800~6,100자	모델별 상이
GPT-OSS 120B	Small 4보다 낮음	Small 4보다 20% 이상 김	—

출처: Mistral AI 공식 발표 (mistral.ai/news/mistral-small-4), Artificial Analysis (artificialanalysis.ai)

Artificial Analysis의 독립 평가에서도 비추론(Non-reasoning) 모드 기준 Small 4는 Intelligence Index 19점으로 동급 모델 평균인 13점을 웃돌고, 속도는 초당 131토큰으로 “빠른 편” 평가를 받았습니다. (출처: artificialanalysis.ai/models/mistral-small-4-non-reasoning)

▲ 목차로 돌아가기

비전 기능, 공식 API에서도 작동이 이상합니다

솔직히 말하면 이 부분이 Small 4에서 가장 큰 문제입니다. Mistral은 Small 4를 “멀티모달 통합 모델”로 발표했지만, 실제 공식 API에서의 이미지 인식 성능은 기대와 많이 다릅니다. Reddit LocalLLaMA에서 공식 API로만 테스트한 사용자가 구체적인 사례를 공개했습니다. 음악 페스티벌 사진을 보여줬더니 Small 4는 스타디움, 트랙 구역, 주차된 차량이 있다고 묘사했습니다. 실제 이미지에는 그런 요소가 하나도 없었습니다. (출처: reddit.com/r/LocalLLaMA, 2026.03.17)

⚠️ 이전 세대인 Mistral Small 3.2 24B, Ministral 3B·8B·14B로는 같은 이미지에서 문제가 없었습니다. Small 4에서만 발생하는 현상으로, 공식 API 기준으로도 재현됩니다. 양자화나 로컬 실행 환경의 문제가 아닙니다. (출처: reddit.com/r/LocalLLaMA, 2026.03.17)

Qwen3.5 35B A3B(활성 파라미터 기준 Small 4의 절반 이하)와 비교해도 이미지 묘사 정확도에서 명확하게 뒤집니다. 비전 인코더 구현 코드에 버그가 있을 가능성이 커뮤니티에서 제기됐고, Mistral 측은 아직 공식 답변을 내놓지 않은 상태입니다. Mistral Small 3.1 때도 초기 릴리스에서 비전 인코더 활성화 함수 오류가 있었다가 나중에 수정된 선례가 있습니다.

이미지 분석이 핵심 사용 사례라면 지금 시점에서는 Small 4에 그 작업을 맡기지 않는 게 낫습니다. 이 부분이 개선될 때까지는 텍스트와 코딩 중심으로 활용하는 것이 현실적입니다.

▲ 목차로 돌아가기

로컬 배포 현실 — H100이 최소 4장 필요합니다

“오픈소스라고 하니까 내 서버에 올려볼 수 있겠다”고 생각하면 공식 문서의 인프라 요구사항부터 보는 게 좋습니다. Mistral 공식 발표에는 최소 배포 환경이 명시돼 있습니다. NVIDIA HGX H100 4장 이상, HGX H200 2장 이상, 또는 DGX B200 1장 이상입니다. 권장 사양은 여기서 한 단계 더 올라갑니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)

HGX H100 1장의 시장 가격이 약 3만~4만 달러 수준임을 감안하면, 최소 구성에서만 하드웨어 비용이 12만 달러 이상입니다. Small 4의 총 파라미터가 119B이고 FP8 정밀도 기준 저장 용량이 72GB 이상이라는 점도 개인 서버에서 돌리기 어려운 이유입니다. (출처: reddit.com/r/LocalLLaMA — 커뮤니티 실측 기준)

vLLM이 공식 권장 서빙 방식인데, Small 4 전용 Docker 이미지를 따로 제공하고 있습니다. 일반 vLLM 최신 버전이 아니라 Mistral이 배포한 커스텀 이미지를 써야 tool calling과 reasoning 파싱이 제대로 됩니다. 이 수정 사항은 공식 vLLM에 PR로 올라가 있고, 1~2주 내 병합 예정이라고 3월 16일 기준 HuggingFace 모델 카드에 나와 있습니다. 현시점에서는 이미 병합됐을 수도 있고 아닐 수도 있습니다.

▲ 목차로 돌아가기

API 요금과 실제 활용 시나리오

Mistral Small 4의 API 요금은 입력 100만 토큰당 $0.15, 출력 100만 토큰당 $0.60입니다. (출처: artificialanalysis.ai/models/mistral-small-4-non-reasoning) 입력 가격은 동급 모델 평균인 $0.20보다 낮고, 출력 가격은 평균인 $0.57보다 살짝 높습니다.

💡 출력 길이 효율이 실질 비용에서 뒤집히는 지점

출력 토큰이 Qwen 대비 3.5~4배 짧다면, 출력 단가가 같더라도 동일 작업 기준 실제 청구액이 달라집니다. 예시: 출력 토큰 600만 개가 필요한 작업이라면 Small 4 기준 $3.60, 동등 성능 Qwen 모델 기준(출력 2,100만 개 추정)은 단가에 따라 달라지지만 출력 과금 기준 $12.60 이상으로 벌어질 수 있습니다. 이 차이는 추론 모드(reasoning_effort=”high”) 사용 시 더 두드러집니다.

Mistral AI Studio와 HuggingFace, NVIDIA NIM 세 곳에서 모두 접근 가능합니다. 코딩 자동화, 긴 문서 분석, 멀티스텝 에이전트 워크플로가 주된 활용처입니다. 비전이 아니라 텍스트와 코드 중심이라면 지금 바로 써볼 이유가 충분합니다.

Artificial Analysis 인텔리전스 지수 기준으로 추론 모드에서 27점을 기록해 직전 버전인 Small 3.2(15점)에서 12점 올랐습니다. (출처: linkedin.com/pulse/mistral-has-released-small-4-artificial-analysis, 2026.03.20) 이 수치가 실제 업무 성능을 그대로 반영하지는 않지만, 이전 버전 대비 추론 깊이가 달라졌다는 건 체감할 수 있는 수준입니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q1. Mistral Small 4는 무료로 쓸 수 있나요?

모델 가중치는 Apache 2.0 라이선스로 무료 공개돼 있습니다. 다만 로컬 실행에는 H100 4장 이상이 필요합니다. NVIDIA build.nvidia.com에서는 계정만 있으면 무료로 프로토타입 테스트가 가능합니다. Mistral AI Studio API는 사용량 기준으로 과금됩니다.

Q2. 이미지 분석 기능을 지금 쓸 수 있나요?

구조적으로 지원은 됩니다. 하지만 공식 API에서도 이미지 인식 오류 사례가 여럿 보고된 상태입니다. 이미지 정확도가 중요한 작업이라면 현시점에서는 Small 3.2나 Qwen 계열이 더 안정적입니다.

Q3. 119B인데 6.5B처럼 빠르다는 게 사실인가요?

추론 연산 측면에서는 그렇습니다. MoE 구조라 토큰당 활성 파라미터가 6.5B에 불과하기 때문입니다. 단, VRAM 점유는 119B 전체 가중치를 메모리에 올려야 하므로 6.5B 모델과 같지 않습니다. 속도는 빠르지만 메모리 요구사항은 큰 모델 기준입니다.

Q4. LM Studio나 llama.cpp로도 쓸 수 있나요?

LM Studio와 llama.cpp(Unsloth GGUF 버전)에서 동작은 합니다. 다만 tool calling과 reasoning 파싱 관련 버그가 아직 수정 중인 단계입니다. 텍스트 채팅 용도라면 지금도 쓸 수 있지만, 에이전트 기능이나 추론 모드는 공식 Docker 이미지 기반 vLLM을 권장합니다.

Q5. Devstral이 따로 있는데 Small 4로 코딩을 해야 할 이유가 있나요?

Devstral은 코딩에 특화된 모델이라 코딩 전용 작업에서는 여전히 유리할 수 있습니다. Small 4의 장점은 코딩 + 긴 문서 분석 + 추론을 하나의 API 연결로 처리할 수 있다는 점입니다. 단일 파이프라인에서 여러 작업 유형을 섞어 처리해야 한다면 Small 4가 더 편합니다.

▲ 목차로 돌아가기

마치며 — 총평

Mistral Small 4는 텍스트와 코딩 중심 워크플로에서 확실히 가치 있는 모델입니다. 모델 3개를 하나로 합친 덕분에 운영 복잡도가 낮아지고, 짧은 출력 길이 덕분에 같은 작업에서 API 비용이 절감됩니다. reasoning_effort 파라미터 아이디어는 현실적으로 유용합니다.

다만 두 가지는 지금 당장 쓰기 전에 고려해야 합니다. 첫째, 비전 기능이 공식 API 기준으로도 불안정합니다. 이미지 분석 작업이 포함된다면 이 이슈가 해결될 때까지 기다리는 게 낫습니다. 둘째, 로컬 배포는 진짜로 비쌉니다. H100 최소 4장은 개인 개발자나 스타트업 초기 단계에서는 현실적인 옵션이 아닙니다. 그 경우에는 API로 쓰는 게 맞습니다.

출시 1주일도 안 된 모델인 만큼 vLLM 통합과 비전 버그는 앞으로 빠르게 개선될 가능성이 있습니다. 지금은 텍스트·코드 파이프라인에서 먼저 테스트해 보고, 비전은 공식 패치 이후로 미뤄두는 접근이 적절합니다.

📚 본 포스팅 참고 자료

① Mistral AI 공식 발표 — mistral.ai/news/mistral-small-4
② HuggingFace 공식 모델 카드 — huggingface.co/mistralai/Mistral-Small-4-119B-2603
③ Artificial Analysis 독립 평가 — artificialanalysis.ai/models/mistral-small-4-non-reasoning
④ NVIDIA NIM 모델 카드 — build.nvidia.com/mistralai/mistral-small-4-119b-2603
⑤ Marktechpost 기술 분석 — marktechpost.com (2026.03.16)
⑥ LocalLLaMA 비전 성능 실사용 보고 — reddit.com/r/LocalLLaMA (2026.03.17)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 스펙은 Mistral Small 4 (119B-2603) 기준이며, 향후 업데이트에 따라 달라질 수 있습니다. API 요금은 Mistral AI 공식 페이지에서 최신 정보를 확인하세요.

오픈소스 LLM, Mistral AI API, Mistral Small 4, MoE AI 모델, reasoning_effort

Mistral Small 4, 119B라더니 실제론 6.5B만 씁니다

Mistral Small 4, 119B라더니 실제론 6.5B만 씁니다

119B인데 왜 6.5B처럼 빠른가 — MoE 구조의 실체

Mistral이 모델 3개를 하나로 합친 이유

reasoning_effort 파라미터, 실제로 뭐가 달라지나

벤치마크 수치가 말하지 않는 것 — 출력 길이 비교

비전 기능, 공식 API에서도 작동이 이상합니다

로컬 배포 현실 — H100이 최소 4장 필요합니다

API 요금과 실제 활용 시나리오

자주 묻는 질문 Q&A

마치며 — 총평

📚 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 119B라더니 실제론 6.5B만 씁니다

Mistral Small 4, 119B라더니 실제론 6.5B만 씁니다

119B인데 왜 6.5B처럼 빠른가 — MoE 구조의 실체

Mistral이 모델 3개를 하나로 합친 이유

reasoning_effort 파라미터, 실제로 뭐가 달라지나

벤치마크 수치가 말하지 않는 것 — 출력 길이 비교

비전 기능, 공식 API에서도 작동이 이상합니다

로컬 배포 현실 — H100이 최소 4장 필요합니다

API 요금과 실제 활용 시나리오

자주 묻는 질문 Q&A

마치며 — 총평

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기