2026.03.16 정식 출시
Mistral Small 4 / 119B MoE / Apache 2.0
API: $0.15 / 100만 입력 토큰

Mistral Small 4 써봤더니
— 6B라더니 63GB가 필요했습니다

출시 직후부터 공식 문서·실사용 후기·하드웨어 벤치마크를 교차 확인해 정리했습니다.

119B

총 파라미터

6.5B

토큰당 활성 파라미터

256K

컨텍스트 윈도우

$0.15

입력 1M 토큰당

“Small”이라는 이름이 가장 먼저 헷갈리게 합니다

Mistral Small 4는 2026년 3월 16일 NVIDIA GTC 2026과 동시에 공개됐습니다. 공식 발표 제목만 보면 “스몰 모델 업그레이드” 정도로 읽힙니다. 그런데 직접 스펙을 확인하는 순간 숫자가 예상 밖으로 뜁니다.

전작인 Mistral Small 3.2는 24B 파라미터 모델이었습니다. Mistral Small 4는 총 119B 파라미터입니다. 이름은 똑같이 “Small”인데 크기는 5배가 됐습니다. Mistral이 이 모델을 “Small”이라고 부르는 이유는 토큰당 활성화되는 파라미터가 6.5B이기 때문인데, 공식 허깅페이스 문서에 딱 이렇게 나옵니다. “119B parameters, with 6.5B activated per token.” (출처: Hugging Face, mistralai/Mistral-Small-4-119B-2603, 2026.03.16)

연산량 기준으로는 작지만, 메모리 기준으로는 절대 작지 않습니다. 이 구분이 로컬 실행을 고려할 때 모든 결론을 바꿉니다.

💡 공식 발표문과 실제 스펙 시트를 나란히 놓고 보니 이런 차이가 보였습니다. “Small”이라는 네이밍은 연산 효율 기준이지, 메모리 요구량 기준이 아닙니다. 로컬 배포를 검토 중이라면 이 구분이 출발점입니다.

▲ 목차로 돌아가기

6B active라더니 메모리는 왜 63GB가 필요한가

Mistral Small 4는 MoE(Mixture of Experts) 구조로 설계됐습니다. 128개의 전문가 레이어가 있고, 토큰 하나가 들어오면 라우터가 그 중 4개만 골라서 활성화합니다. 이게 “6.5B active”의 의미입니다.

여기서 놓치기 쉬운 부분이 있습니다. 라우터가 “어떤 4개를 고를지” 결정하려면, 128개 전문가 전체가 메모리에 올라가 있어야 합니다. 활성화하지 않는 124개도 대기 상태로 존재해야 라우터가 선택할 수 있기 때문입니다. CraftRigs의 하드웨어 분석 문서에는 이렇게 적혀 있습니다. “Dense models and MoE models of the same total size need the same memory. The MoE advantage shows up in FLOP efficiency and output speed, not memory footprint.” (출처: CraftRigs, Mistral Small 4 Local Setup Hardware Guide, 2026.03.19)

즉, 연산이 줄어든 것이지 메모리가 줄어든 게 아닙니다. 그래서 Q4 양자화 기준 모델 가중치만 약 63GB가 필요합니다.

⚠️ 계산식 직접 확인:
119B × 4bit ÷ 8 = 약 59.5GB (가중치만)
+ KV 캐시 오버헤드 ≈ 3~5GB
= Q4_K_M 기준 최소 약 63GB 필요
여기에 256K 컨텍스트 풀로 사용 시 KV 캐시가 추가로 10~20GB 더 필요합니다.
(출처: CraftRigs 하드웨어 가이드, 2026.03.19 / Hugging Face 모델 카드, 2026.03.16)

RTX 4090(24GB) 한 장으로는 Q4 기준 전체 가중치의 약 38%만 VRAM에 올릴 수 있고 나머지는 시스템 RAM에 의존합니다. 처리 속도가 5~10 tok/s 수준으로 내려가는 이유가 여기 있습니다.

▲ 목차로 돌아가기

세 모델이 하나로 — 통합이 실제로 의미하는 것

Mistral Small 4 이전까지 Mistral의 기능 특화 라인업은 이렇게 나뉘어 있었습니다. 추론 작업에는 Magistral, 이미지 분석에는 Pixtral, 코딩 에이전트에는 Devstral. 세 가지 작업을 하려면 세 개의 모델을 관리해야 했습니다.

Mistral Small 4는 이 세 가지를 체크포인트 하나로 통합했습니다. 공식 발표에는 “one model now delivers all three, with configurable reasoning effort and best-in-class efficiency”라고 나와 있습니다. (출처: Mistral AI 공식 블로그, mistral.ai/news/mistral-small-4, 2026.03.16) 모델 하나로 세 가지 역할이 가능합니다.

에이전트 파이프라인을 구축할 때 실질적으로 달라지는 부분이 있습니다. API 엔드포인트를 하나만 유지하면 되고, 컨텍스트 전달 과정에서 모델 전환 오버헤드가 없어집니다. 여러 모델을 조합해 쓰는 멀티모델 파이프라인을 단일 모델로 대체할 수 있다는 뜻입니다. 모델 관리 복잡도가 줄어드는 만큼 개발·운영 비용에 직접 영향이 생깁니다.

💡 출시 일정을 거슬러 보면 이 통합이 왜 가능했는지 흐름이 보입니다. Magistral(2025.06), Pixtral(2024.09), Devstral(2025.05) 순으로 쌓인 노하우가 Small 4에서 하나로 합쳐진 것입니다. 각 특화 모델의 성숙도가 뒷받침됐기 때문에 통합이 가능했습니다.

▲ 목차로 돌아가기

reasoning_effort를 항상 high로 두면 안 되는 이유

Mistral Small 4의 가장 눈에 띄는 신기능은 reasoning_effort 파라미터입니다. 요청마다 “빠른 응답”과 “깊은 추론” 중 하나를 선택할 수 있습니다. reasoning_effort="none"으로 설정하면 Mistral Small 3.2와 같은 빠른 인스트럭트 모드로 동작하고, reasoning_effort="high"로 설정하면 Magistral 수준의 단계별 추론을 수행합니다. (출처: Hugging Face, mistralai/Mistral-Small-4-119B-2603, 2026.03.16)

막상 써보면 주의할 점이 생깁니다. “high”로 두면 출력이 훨씬 길어집니다. 공식 벤치마크 기준으로 인스트럭트 모드의 평균 출력이 약 2.1K 문자인 데 비해, 추론 모드에서는 18.7K 문자까지 길어집니다. (출처: VentureBeat, Mistral’s Small 4 consolidates reasoning vision and coding, 2026.03.20) 출력이 9배 길어진다는 것은 토큰 비용도 그만큼 늘어난다는 뜻입니다.

단순한 질의응답, 문서 요약, 분류 작업처럼 추론 깊이가 필요 없는 태스크에서 “high”를 쓰면 불필요한 비용이 발생합니다. 공식 권장 설정에는 reasoning_effort="high"일 때 temperature 0.7, "none"일 때 temperature 0.0~0.7이라고 나와 있습니다. 태스크 성격에 따라 두 파라미터를 함께 조정하는 게 맞습니다.

reasoning_effort 값	평균 출력 길이	권장 temperature	적합한 태스크
`none`	약 2.1K 문자	0.0~0.7	채팅, 요약, 분류
`high`	약 18.7K 문자	0.7	수학, 복잡한 코딩, 다단계 추론

출처: VentureBeat 보도(2026.03.20) / Hugging Face 공식 모델 카드(2026.03.16) 기준

▲ 목차로 돌아가기

하드웨어 티어별 실제 속도 — 공식과 현실의 차이

Mistral 공식 발표에서는 Mistral Small 3 대비 지연 시간 40% 감소, 초당 처리량 3배 향상을 언급합니다. 이건 Mistral 서버 인프라 기준 수치입니다. (출처: Mistral AI 공식 블로그, 2026.03.16) 로컬 환경에서는 하드웨어 구성에 따라 결과가 달라집니다.

RTX 4090(24GB) 한 장에서는 Q4_K_M 기준 초당 5~10 토큰 수준입니다. 500 토큰짜리 응답을 받는 데 50~100초 걸립니다. 실시간 채팅용으로는 버겁습니다. 반면 M4 Ultra(192GB 통합 메모리) 환경에서는 초당 10~18 토큰이 나와서 배치 작업 용도로는 쓸 만합니다. 이중 H100 80GB 서버에서는 Q8 기준 55~85 tok/s로, API와 비슷한 응답성이 나옵니다. (출처: CraftRigs, Mistral Small 4 Local Setup Hardware Guide, 2026.03.19)

하드웨어	양자화	예상 속도	실용성
8GB VRAM + 128GB RAM	Q4	1~2 tok/s	❌ 비실용
RTX 4090 (24GB) + 64GB RAM	Q4	5~10 tok/s	⚠️ 배치 작업만
2× RTX 4090 + 32GB RAM	Q4	14~20 tok/s	✅ 실사용 가능
M4 Ultra (192GB)	Q4	10~18 tok/s	✅ 충분히 쓸 만함
2× H100 80GB	Q8	55~85 tok/s	✅ API 수준

출처: CraftRigs 하드웨어 가이드(2026.03.19) 기반 정리 / 실환경에 따라 달라질 수 있음

솔직히 말하면, 단일 소비자 GPU로는 로컬 실행의 체감 속도가 API보다 훨씬 느립니다. 비용이나 프라이버시 이유로 로컬 실행이 필수인 경우가 아니라면, 이 규모의 모델은 API를 통해 쓰는 쪽이 현실적입니다.

▲ 목차로 돌아가기

API 가격 $0.15, 실제 쓰면 얼마나 나오나

Mistral Small 4의 API 가격은 입력 토큰 100만 개당 $0.15, 출력 100만 개당 $0.60입니다. (출처: OpenRouter, mistralai/mistral-small-2603 페이지, 2026.03.16) 모델 ID는 mistral-small-2603입니다.

전작 Mistral Small 3.1(24B)의 가격은 입력 $0.10, 출력 $0.30이었습니다. 파라미터 규모가 5배 가까이 커졌는데 가격은 입력 기준 50%, 출력 기준 100% 인상에 그쳤습니다. 같은 기능(추론+멀티모달+코딩)을 개별 모델로 조합했을 때의 비용과 비교하면 단일 모델로의 전환이 비용 측면에서도 유리한 구간이 존재합니다.

📊 일반적인 사용 시나리오 비용 추정:
1회 요청당 평균 입력 1,000 토큰 + 출력 500 토큰 가정
• 입력 비용: 1,000 ÷ 1,000,000 × $0.15 = $0.00015
• 출력 비용: 500 ÷ 1,000,000 × $0.60 = $0.00030
• 1회 요청 합계: 약 $0.00045
• 1,000회 요청 시: 약 $0.45 (약 650원 수준)
※ 추정치. 실제 입출력 토큰 수에 따라 달라집니다.

reasoning_effort=”high”를 쓸 경우 출력이 최대 9배 길어지므로, 같은 시나리오에서 출력 비용만 약 $0.00270으로 올라갑니다. 추론 모드 사용 빈도를 태스크에 맞게 조절하는 게 비용 관리의 핵심입니다.

▲ 목차로 돌아가기

Qwen 3.5, Claude Haiku와 뭐가 다른가

같은 “소형 고효율” 포지션을 노리는 모델이 여럿 있습니다. VentureBeat는 Mistral Small 4의 직접 경쟁자로 Qwen 3.5 122B, Qwen 3-next 80B, Claude Haiku를 꼽았습니다. (출처: VentureBeat, 2026.03.20)

벤치마크 결과만 보면 순위가 엇갈립니다. LiveCodeBench에서는 Mistral Small 4가 GPT-OSS 120B보다 높은 점수를 내면서 출력은 20% 더 짧습니다. 이 수치는 코딩 에이전트처럼 반복 호출이 많은 환경에서 누적 비용 차이로 이어집니다. 반면 GPQA Diamond, MMLU Pro 같은 범용 추론 벤치마크에서는 Qwen3.5-35B-A3B(활성 파라미터 3B)가 앞서는 케이스가 있고, Claude Haiku는 인스트럭트 모드 품질에서 강세를 보입니다.

💡 Qwen 계열과 비교해보면 Mistral Small 4의 포지션이 명확해집니다. Qwen3.5-35B-A3B는 활성 파라미터가 3B라 로컬 실행 허들이 훨씬 낮습니다. Mistral Small 4가 유리한 지점은 추론·비전·코딩을 단일 엔드포인트로 처리해야 하는 파이프라인, 그리고 Apache 2.0 라이선스로 상업적 자유도가 필요한 경우입니다.

Mistral 측이 강조하는 또 다른 차별점은 출력 효율입니다. AA LCR 벤치마크에서 Mistral Small 4는 0.72 점수를 1,600 문자로 달성했습니다. Qwen 계열이 같은 성능을 위해 5,800~6,100 문자를 출력한 것과 비교하면 3.5~4배 차이가 납니다. (출처: Mistral AI 공식 블로그, 2026.03.16) 출력 길이가 짧다는 건 API 비용뿐 아니라 응답 대기 시간에도 영향을 줍니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. Mistral Small 4를 Ollama로 바로 실행할 수 있나요?

2026년 3월 29일 기준, Ollama 공식 라이브러리에 Mistral Small 4 지원이 올라오지 않은 상태입니다. MoE 모델 특성상 expert 레이어 오프로딩을 세밀하게 제어해야 해서, 현재는 llama.cpp를 직접 사용하는 쪽이 권장됩니다. Ollama 지원 여부는 ollama.com/library에서 확인하면 됩니다.

Q2. 한국어 지원 품질은 어떤가요?

공식 허깅페이스 문서에 지원 언어 목록에 Korean이 명시되어 있습니다. 실제 품질은 사용 사례마다 다르며, 현재 공식 문서에서 언어별 별도 벤치마크를 공개하지 않은 상태입니다.

Q3. Apache 2.0 라이선스면 상업적으로 자유롭게 쓸 수 있나요?

네, Apache 2.0 라이선스는 상업적·비상업적 사용 모두 허용합니다. 단, 공식 모델 카드에 “제3자의 지식재산권을 침해하는 방식으로 사용하면 안 된다”는 조건이 붙어 있습니다. (출처: Hugging Face, 2026.03.16)

Q4. 컨텍스트 윈도우 256K를 로컬에서 쓸 수 있나요?

기술적으로는 가능하지만, KV 캐시가 컨텍스트 길이에 비례해 메모리를 추가로 사용합니다. 256K 풀 컨텍스트 기준으로 KV 캐시만 10~20GB가 추가로 필요합니다. 로컬 환경에서는 컨텍스트를 8K 이하로 제한하는 쪽이 현실적입니다.

Q5. 파인튜닝은 어떻게 하나요?

공식 권장 도구는 Axolotl입니다. 허깅페이스 모델 카드에 Axolotl 예제 링크가 있습니다. NVIDIA NeMo를 통한 도메인 특화 파인튜닝도 가능하며, NVIDIA NIM으로 배포까지 연결됩니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)

▲ 목차로 돌아가기

마치며

Mistral Small 4를 한 줄로 정리하면, “이름은 Small이지만 실제로는 119B MoE 통합 모델”입니다. 마케팅 표현인 “6B active”에 집중하다 보면 하드웨어 계획을 잘못 세우기 쉽습니다. Q4 양자화 기준 63GB라는 수치를 먼저 확인하고 시작해야 합니다.

기대했던 것과 달랐던 부분은 로컬 실행의 현실적 제약입니다. 반면 API로 사용할 때는 추론·비전·코딩이 단일 엔드포인트에서 돌아가고, reasoning_effort 파라미터로 비용을 태스크에 맞게 조절할 수 있다는 점이 실용적으로 매력 있습니다.

개인적으로는 에이전트 파이프라인 구축 용도에서 가장 활용 가치가 높다고 봅니다. 모델 여러 개를 조합하는 복잡한 구조 대신 단일 체크포인트 하나로 모든 흐름을 처리할 수 있다면, 유지보수 비용 차이가 누적될수록 체감으로 납니다. 단, 소비자 GPU 한두 장 환경에서 실시간 인터랙션을 기대하고 시작하면 실망할 가능성이 높습니다.

📚 본 포스팅 참고 자료

Mistral AI 공식 블로그 — Introducing Mistral Small 4 (2026.03.16)
https://mistral.ai/news/mistral-small-4
Hugging Face 공식 모델 카드 — mistralai/Mistral-Small-4-119B-2603 (2026.03.16)
https://huggingface.co/mistralai/Mistral-Small-4-119B-2603
CraftRigs — Mistral Small 4 Local Setup Hardware Guide (2026.03.19)
https://craftrigs.com/articles/73-mistral-small-4-local-setup-hardware-guide/
VentureBeat — Mistral’s Small 4 consolidates reasoning, vision and coding into one model (2026.03.20)
https://venturebeat.com/technology/mistrals-small-4-consolidates-reasoning-vision-and-coding-into-one-model-at
OpenRouter — Mistral Small 4 API Pricing (2026.03.16)
https://openrouter.ai/mistralai/mistral-small-2603

⚠️ 면책 조항: 본 포스팅은 2026년 3월 29일 기준으로 작성됐습니다. Mistral Small 4를 포함한 AI 서비스·모델은 지속적으로 업데이트되므로, 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 Mistral AI 공식 채널에서 확인하시기 바랍니다.

Mistral Small 4 써봤더니 — 6B라더니 63GB가 필요했습니다

Mistral Small 4 써봤더니
— 6B라더니 63GB가 필요했습니다

“Small”이라는 이름이 가장 먼저 헷갈리게 합니다

6B active라더니 메모리는 왜 63GB가 필요한가

세 모델이 하나로 — 통합이 실제로 의미하는 것

reasoning_effort를 항상 high로 두면 안 되는 이유

하드웨어 티어별 실제 속도 — 공식과 현실의 차이

API 가격 $0.15, 실제 쓰면 얼마나 나오나

Qwen 3.5, Claude Haiku와 뭐가 다른가

자주 묻는 질문 5가지

마치며

📚 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4 써봤더니 — 6B라더니 63GB가 필요했습니다

“Small”이라는 이름이 가장 먼저 헷갈리게 합니다

6B active라더니 메모리는 왜 63GB가 필요한가

세 모델이 하나로 — 통합이 실제로 의미하는 것

reasoning_effort를 항상 high로 두면 안 되는 이유

하드웨어 티어별 실제 속도 — 공식과 현실의 차이

API 가격 $0.15, 실제 쓰면 얼마나 나오나

Qwen 3.5, Claude Haiku와 뭐가 다른가

자주 묻는 질문 5가지

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기