Mistral Small 4, 3개 모델이 하나로 된 진짜 이유

Published on

in

Mistral Small 4, 3개 모델이 하나로 된 진짜 이유

2026.03.16 출시
Apache 2.0
mistral-small-2603 기준

Mistral Small 4, 3개 모델이 하나로 된 진짜 이유

결론부터 말씀드리면, Mistral Small 4는 추론 모델인 Magistral, 이미지 모델인 Pixtral, 코딩 에이전트인 Devstral을 단 하나의 API 엔드포인트로 통합한 모델입니다. 전체 파라미터는 119B지만 토큰당 실제로 활성화되는 건 6.5B에 불과합니다. 그러면서 가격은 입력 토큰 기준 $0.15/1M — GPT-5.4 Mini의 5분의 1 수준입니다.

6.5B
토큰당 활성 파라미터
$0.15
입력 1M 토큰 단가
256K
컨텍스트 윈도우

119B인데 왜 빠른가 — MoE 구조의 핵심

Mistral Small 4는 전체 파라미터가 119B이지만, 실제로 하나의 토큰을 처리할 때 활성화되는 파라미터는 6.5B뿐입니다. 128개의 전문가(expert) 네트워크 중 토큰당 딱 4개만 선택되는 MoE(Mixture of Experts) 방식 덕분입니다. 총량 대비 활성량의 비율이 약 20:1 — 이게 Mistral의 효율 공식입니다. (출처: Mistral AI 공식 발표, 2026.03.16)

쉽게 말하면 코딩 토큰이 들어오면 코딩 전문 expert가 호출되고, 수학 문제가 들어오면 추론 전담 expert가 깨어납니다. 나머지 124개는 그냥 자고 있습니다. 그래서 운용 비용이 빠집니다.

Mistral은 이 구조를 바탕으로 Mistral Small 3 대비 종단간 응답 시간 40% 단축, 초당 처리 요청 수 3배 향상을 공식 발표했습니다. 같은 인프라에서 100RPS를 처리하던 파이프라인이 300RPS까지 늘어납니다. (출처: mistral.ai/news/mistral-small-4)

💡 공식 발표 수치와 실제 배포 환경을 같이 놓고 보면, MoE가 단순히 “크면서 가볍다”는 마케팅이 아니라 인프라 비용 구조에 직접 영향을 주는 설계임을 알 수 있습니다.

▲ 목차로 돌아가기

3개 모델 통합이 실제로 의미하는 것

Small 4 이전까지 Mistral 생태계에서 제대로 쓰려면 최소 3개 모델을 굴려야 했습니다. Mistral Small 3.2(일반 채팅), Magistral(복잡한 추론), Pixtral(이미지 처리)를 각각 별도 API 엔드포인트와 라우팅 파이프라인, 비용 구조로 관리해야 했죠. 여기에 코딩 에이전트가 필요하면 Devstral까지 네 번째 모델이 붙었습니다.

Small 4는 이 구조를 mistral-small-latest 하나로 묶습니다. 라우팅 로직이 사라지고, 모니터링 포인트가 하나가 되고, 청구서도 하나입니다. 기업 입장에서 유지보수 비용이 줄어드는 건 벤치마크 수치와 별개로 실질적인 이점입니다.

Mistral은 이를 두고 “instruct, reasoning, multimodal 능력을 통합해 단일 도구로 더 넓은 범위의 태스크를 처리할 수 있게 한다”고 공식 발표에 직접 명시했습니다. 실제로 모델 전환 없이 텍스트·이미지·코드·수학 문제를 동일 엔드포인트로 처리할 수 있다는 점이 핵심입니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)

역할 기존 모델 Small 4 이후
일반 채팅/추출 Mistral Small 3.2 Small 4 (none)
복잡한 추론 Magistral Small 4 (high)
이미지 분석 Pixtral Small 4 (기본)
코딩 에이전트 Devstral Small 4 (기본)

▲ 목차로 돌아가기

reasoning_effort 파라미터, 이렇게 씁니다

Small 4에서 가장 실용적인 부분이 이 파라미터입니다. 같은 모델, 같은 엔드포인트에서 요청마다 “추론 깊이”를 동적으로 바꿀 수 있습니다. 공식 문서에는 이렇게 나옵니다. (출처: docs.mistral.ai/capabilities/reasoning/adjustable)

  • reasoning_effort="none" — 최소 추론, 빠른 응답. Mistral Small 3.2 스타일의 채팅 응답. 분류, 데이터 추출, 단순 Q&A에 적합.
  • reasoning_effort="high" — 단계별 사고 과정을 포함한 심층 추론. Magistral 수준의 수학·과학·복합 계획 문제에 적합.

실제로 이 구조가 중요한 이유는 비용 구조 때문입니다. reasoning_effort="none"으로 처리하는 단순 분류 요청에는 추론 토큰이 전혀 붙지 않습니다. 전체 요청 중 90%는 빠르게, 나머지 10%만 깊이 처리하는 식으로 운용하면 비용이 눈에 띄게 떨어집니다.

🔧 API 호출 예시 (Python)

# 빠른 모드
response = client.chat.complete(
model="mistral-small-latest",
messages=[{"role":"user","content":"이 텍스트의 감정을 분류해줘"}],
reasoning_effort="none"
)
# 심층 추론 모드
response = client.chat.complete(
model="mistral-small-latest",
messages=[{"role":"user","content":"이 수학 문제를 단계별로 풀어줘"}],
reasoning_effort="high"
)

OpenAI도 비슷한 방식을 쓰지만, 그쪽 추론 모델은 입력 토큰 기준 $2.50 이상입니다. $0.15짜리 모델에서 같은 방식이 가능하다는 게 Small 4의 차별점입니다.

▲ 목차로 돌아가기

GPT-5.4 Mini, DeepSeek V3.2와 비용 직접 비교

숫자로 직접 보겠습니다. 아래는 공식 가격 기준 (2026.03.23 확인, 출처: tokencost.app, Mistral 공식 요금 페이지)으로 3가지 주요 유스케이스에서 Mistral Small 4와 GPT-5.4 Mini의 월 비용을 비교한 것입니다.

모델 입력 /1M 출력 /1M 컨텍스트 멀티모달
Mistral Small 4 $0.15 $0.60 256K
GPT-5.4 Nano $0.20 $1.25 400K
GPT-5.4 Mini $0.75 $4.50 400K
DeepSeek V3.2 $0.28 $0.42 128K
Claude Haiku 4.5 $1.00 $5.00 200K

코드 리뷰 워크로드(요청당 입력 15K + 출력 3K, 하루 200건 기준)로 계산하면 다음과 같습니다.

📊 월 비용 계산 (코드 리뷰 기준)

$$\text{Mistral Small 4} = (15K \times 200 \times 30 \times \$0.15/1M) + (3K \times 200 \times 30 \times \$0.60/1M) \approx \$24/\text{월}$$
$$\text{GPT-5.4 Mini} = (15K \times 200 \times 30 \times \$0.75/1M) + (3K \times 200 \times 30 \times \$4.50/1M) \approx \$149/\text{월}$$

같은 요청량이면 GPT-5.4 Mini 대비 6.2배 저렴합니다.

단, DeepSeek V3.2는 출력 단가($0.42)가 Small 4($0.60)보다 낮습니다. 출력 토큰이 압도적으로 많고 이미지 처리가 필요 없는 워크로드라면 DeepSeek가 더 유리할 수 있습니다.

▲ 목차로 돌아가기

공식 발표 수치와 독립 벤치마크 사이 차이

솔직히 말하면, 이 부분이 Small 4에서 가장 조심해야 하는 지점입니다. 공식 발표에서 Mistral은 자사 기준으로 GPQA Diamond를 71.2% 달성했다고 밝혔습니다. 그런데 독립 평가 플랫폼 Artificial Analysis는 같은 모델에 대해 GPQA Diamond 57.1%를 기록했습니다. 14%포인트 차이입니다.

⚠️ 벤치마크 수치 출처 확인 필요

Mistral 공식 발표(71.2%)는 자사 내부 평가 기준이며, Artificial Analysis의 독립 평가(57.1%)와 측정 조건이 다를 수 있습니다. 도입 전 실제 사용 케이스로 직접 검증하는 게 안전합니다.

문서 이해 태스크에서는 또 다른 그림이 나옵니다. API를 통한 실사용 테스트에서 Small 4는 23개 모델 중 11위(평균 71.5점)를 기록했다는 Reddit 공유 데이터가 있습니다. “모든 걸 잘하는 모델”이라는 포지셔닝과 달리, 멀티모달 문서 이해 분야에서는 전문 특화 모델에 밀리는 사례도 보입니다.

💡 출력 효율성만큼은 실측 데이터에서도 확인됩니다. Mistral 공식 자료에 따르면 AA LCR 벤치마크에서 Small 4는 0.72점을 출력 1,600자 안에 달성했는데, 유사한 성능을 내는 Qwen 모델들은 5,800~6,100자가 필요했습니다. 출력 토큰이 3.5~4배 적다는 건 청구서에도 그대로 반영됩니다.

결국 Small 4의 강점은 “모든 분야 1위”가 아닙니다. 멀티모달·추론·코딩을 하나의 API로 묶으면서, 출력 효율성이 높아 실제 비용이 적게 나온다는 구조입니다. 특정 분야에서 더 높은 정확도가 필요하다면 전문 모델과 비교 테스트를 먼저 해보는 게 맞습니다.

▲ 목차로 돌아가기

로컬 배포 전에 꼭 확인해야 할 것들

“오픈소스니까 Ollama로 돌리면 되겠지”라고 생각했다면, 지금 당장은 그렇지 않습니다. 출시 당시 기준으로 llama.cpp 호환성이 완전히 마무리되지 않았고, Ollama 지원도 개발 중 상태입니다. 공식 채널에서 PR이 열려 있으며, 아직 머지되지 않은 상태입니다. (출처: emelia.io, 2026.03.17 기준)

현재 Self-hosting의 공식 권장 경로는 vLLM입니다. Mistral이 전용 Docker 이미지를 제공합니다. 최소 요구 사양은 4× NVIDIA H100 또는 2× H200으로, 전체 모델이 BF16 기준 약 242GB이기 때문입니다. 개인 개발 환경이나 싱글 GPU 서버에는 적합하지 않습니다.

또 하나의 함정은 파인튜닝입니다. HuggingFace Transformers로 직접 사용하려면 FP8 가중치를 BF16으로 수동 변환해야 합니다. 공식적으로 이 변환 과정이 별도 안내되어 있습니다. 놓치고 진행하면 로드 오류가 납니다.

자가 배포 체크리스트: ① vLLM 사용 권장(llama.cpp는 개발 중) ② 최소 GPU: 4× H100 또는 2× H200 ③ HuggingFace Transformers 사용 시 FP8→BF16 변환 필요 ④ 경량 버전(Ministral 4) 아직 없음

▲ 목차로 돌아가기

자주 묻는 질문

Q1. Mistral Small 4는 완전 무료로 쓸 수 있나요?
모델 가중치 자체는 Apache 2.0 라이선스로 무료입니다. Hugging Face에서 다운로드 후 자가 서버에 배포하면 API 비용이 없습니다. 다만 최소 4× H100이 필요하므로 인프라 비용이 따로 붙습니다. Mistral API를 쓴다면 입력 기준 $0.15/1M 토큰부터 과금됩니다. NVIDIA build.nvidia.com에서는 프로토타이핑 용도로 무료 테스트 접근이 가능합니다.
Q2. reasoning_effort를 “high”로 설정하면 비용이 얼마나 더 나오나요?
추론 모드에서는 사고 과정(thinking chunk)이 응답에 포함되므로 출력 토큰이 늘어납니다. 정확한 추가 토큰 수는 문제 복잡도에 따라 달라지며, Mistral이 별도 수치를 공개하지 않은 부분입니다. 실측 기준으로는 단순 수학 문제 기준 응답 길이가 2~3배 늘어나는 사례가 보고되고 있습니다. 운용 시 reasoning_effort=”high”는 필요한 요청에만 제한 적용하는 게 비용 관리에 유리합니다.
Q3. Ollama로 바로 실행할 수 있나요?
2026년 3월 28일 기준으로 Ollama 공식 지원은 완료되지 않았습니다. llama.cpp PR이 열려 있지만 아직 머지 전입니다. 현재 로컬 배포 공식 권장 경로는 vLLM이며, Mistral이 전용 Docker 이미지를 제공합니다. Ollama를 원하신다면 llama.cpp PR 진행 상황을 주시하는 게 좋습니다.
Q4. 이미지를 얼마나 잘 처리하나요?
텍스트 기반 작업보다 이미지 이해 분야는 상대적으로 약합니다. 독립 테스트에서 문서 이해 태스크 기준 23개 모델 중 11위(평균 71.5점)로 나왔습니다. 복잡한 문서 레이아웃이나 시각적 추론이 핵심인 경우 전문 특화 비전 모델과 비교 테스트를 먼저 권장합니다.
Q5. 기존에 Mistral Small 3.2를 쓰던 팀이라면 바로 Small 4로 마이그레이션해도 되나요?
API 엔드포인트는 mistral-small-latest로 동일하게 유지되기 때문에 코드 변경 없이 마이그레이션이 가능합니다. 다만 Small 4는 기본값에서 추론 동작이 Small 3.2와 약간 다를 수 있으므로, reasoning_effort=”none”을 명시적으로 지정해 기존 동작을 재현하는 게 안전합니다. 큰 규모의 프로덕션 환경이라면 응답 형식과 출력 길이를 사전에 A/B 테스트로 검증하는 것을 추천합니다.

▲ 목차로 돌아가기

마치며 — 쓰면 좋은 팀과 아닌 팀

Mistral Small 4는 “하나의 모델로 다 된다”는 약속을 기술적으로는 꽤 잘 지켜냈습니다. 119B 파라미터를 6.5B 연산 비용으로 굴리는 MoE 구조, reasoning_effort로 요청마다 추론 깊이를 바꾸는 방식, Apache 2.0의 완전 개방 라이선스. 이 세 가지를 한꺼번에 갖춘 모델이 $0.15/1M이라는 건 솔직히 기대보다 나왔습니다.

다만 만능 모델이라는 포지셔닝은 절반만 맞습니다. 이미지 이해 전문성은 상위권이 아닌 것으로 실측에서 확인됐고, 브라우저 자동화·컴퓨터 조작 같은 태스크는 지원 범위 밖입니다. 256K 컨텍스트도 GPT-5.4 Mini(400K)나 Gemini(1M) 대비 짧습니다.

결론적으로, 멀티모달 + 추론 + 코딩을 대량으로 굴리면서 비용이 부담인 팀, 데이터 주권이 필요한 유럽 금융·의료 서비스, Mistral 생태계를 이미 쓰던 팀에게 Small 4는 바로 검토해볼 이유가 있습니다. 반대로 이미지가 핵심이거나 초장문 컨텍스트가 필수라면 비교 테스트 없이 전환하면 낭패 볼 수 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Mistral AI 공식 발표 — mistral.ai/news/mistral-small-4
  2. Mistral Adjustable Reasoning 공식 문서 — docs.mistral.ai/capabilities/reasoning/adjustable
  3. Mistral AI Governance Hub — legal.mistral.ai/ai-governance/models/mistral-small-4
  4. TokenCost 가격 비교 분석 — tokencost.app/blog/mistral-small-4-pricing
  5. Emelia.io 기술 가이드 — emelia.io/hub/mistral-small-4-complete-guide-benchmarks
  6. Artificial Analysis 성능 벤치마크 — artificialanalysis.ai

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 28일 기준이며, Mistral AI의 업데이트에 따라 달라질 수 있습니다. 투자·도입 결정 전 공식 문서에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기