2026.03.16 출시 기준
v26.03
TECH

Mistral Small 4, 써봤더니 이게 달랐습니다

Mistral Small 4가 2026년 3월 16일에 공식 출시됐습니다. 이름에 “Small”이 붙어 있어서 가볍게 보기 쉬운데, 막상 스펙을 뜯어보면 이야기가 달라집니다. 119B 파라미터에 추론·멀티모달·코딩 에이전트를 한 모델에 집어넣었고, 가격은 입력 토큰 기준 $0.15/M으로 GPT-4o mini와 같은 레벨입니다. 그런데 reasoning 모드를 켜면 출력 토큰이 평균보다 7배 이상 나온다는 데이터가 이미 나와 있습니다. 이게 무슨 의미인지, 직접 확인했습니다.

119B

총 파라미터

6.5B

활성 파라미터

256K

컨텍스트

Apache 2.0

라이선스

$0.15

입력 /1M토큰

119B인데 로컬에서 돌아갈까요?

Mistral Small 4의 이름만 보면 “소형 모델이니까 내 PC에서도 돌아가겠지”라고 생각하기 쉽습니다. 그런데 총 파라미터가 119B입니다. 공식 문서 기준 최소 구동 사양은 4x NVIDIA HGX H100, 또는 1x NVIDIA DGX B200입니다. (출처: Mistral AI 공식 릴리스 노트, 2026.03.16)

💡 공식 발표문과 실제 배포 요구사항을 같이 놓고 보니 이런 차이가 보였습니다.

MoE(Mixture of Experts) 구조라서 토큰당 활성 파라미터는 6.5B뿐입니다. 그런데 추론 엔진이 128개 전문가 모듈 전체를 메모리에 올려놔야 하기 때문에, 실제로는 119B 전체를 VRAM에 적재해야 합니다. 활성 파라미터가 적다는 것과 “가볍게 돌아간다”는 것은 다른 이야기입니다. 응답 속도가 빠른 이유는 계산량이 줄어서이지, 모델이 메모리를 덜 쓰기 때문이 아닙니다.

이 차이를 이해하면 “소형”이라는 단어에 속지 않을 수 있습니다. 토큰당 연산이 6.5B 수준이라 응답 속도는 153 tokens/sec로 빠르지만 (출처: Artificial Analysis, 2026.03.17), 로컬 배포를 계획하고 있다면 하드웨어 예산을 다시 잡아야 합니다.

▲ 목차로 돌아가기

추론 모드를 켜면 비용이 이렇게 됩니다

Mistral Small 4의 가격표는 얼핏 보면 착합니다. 입력 $0.15/M 토큰, 출력 $0.60/M 토큰입니다. (출처: docs.mistral.ai, 2026.03.16) 그런데 여기서 reasoning 모드를 켜면 실제 청구 금액이 달라집니다.

⚠️ 주의 — 실측 데이터 기반

Artificial Analysis가 Mistral Small 4 Reasoning 모드를 Intelligence Index로 평가한 결과, 총 생성 토큰이 52M 토큰으로 집계됐습니다. 동일 벤치마크에서 비교 모델 평균은 7.3M 토큰입니다. 즉 reasoning 모드는 평균보다 약 7.1배 더 많은 출력 토큰을 소모합니다. (출처: Artificial Analysis, 2026.03.17)

이것이 비용에서 의미하는 바는 단순합니다. 출력 $0.60/M 기준으로 1만 건의 복잡한 질문을 reasoning 모드로 처리하면, 같은 수의 요청을 reasoning 없이 처리하는 것보다 비용이 7배 가까이 올라갈 수 있다는 뜻입니다. 특히 장문 보고서 자동화처럼 출력이 긴 태스크에서는 이 비율이 더 벌어집니다.

표: reasoning 모드 on/off 출력 토큰 비교 (추정, Artificial Analysis 수치 기반)
항목	reasoning=none	reasoning=high
평균 출력 토큰 (추정)	~7.3M 기준	~52M (7.1배)
출력 단가 (/1M)	$0.60	$0.60
상대적 비용 (추정)	기준	약 7x

※ 위 수치는 Artificial Analysis Intelligence Index 평가 결과를 기반으로 한 추정치이며, 개별 태스크와 프롬프트에 따라 달라질 수 있습니다. (출처: Artificial Analysis, 2026.03.17)

▲ 목차로 돌아가기

하나로 합쳤다는 게 실제로 어떤 의미인가요

Mistral AI는 기존에 추론 특화 Magistral, 코딩 에이전트 Devstral, 일반 대화 Mistral Small을 각각 별도 모델로 운영했습니다. Mistral Small 4는 이 세 가지를 단일 모델로 통합했습니다. (출처: Mistral AI 공식 블로그, 2026.03.16)

이게 사용자에게 실질적으로 의미하는 것은 “모델 라우팅 로직을 짤 필요가 없어진다”는 점입니다. 예를 들어 문서 분석 → 수식 추론 → 코드 생성이 이어지는 파이프라인을 만들 때, 기존에는 단계마다 다른 엔드포인트를 호출해야 했습니다. Mistral Small 4에서는 하나의 API 엔드포인트로 이 흐름을 처리할 수 있습니다. 시스템 복잡도가 줄어드는 것은 운영 비용과 직결됩니다.

💡 세 모델의 역할 분리와 통합을 나란히 놓고 보니 이런 흐름이 보였습니다.

Mistral AI가 지금까지 모델을 분리해 출시했던 이유 중 하나는 MoE 구조에서 전문가 모듈을 태스크별로 최적화하기 위함이었습니다. Small 4에서 이를 하나로 묶은 것은 128개 전문가 모듈의 분업 체계가 성숙해졌다는 신호입니다. 단순 통합이 아니라, 각 전문가 모듈이 태스크를 스스로 판단하고 분기할 수 있는 수준에 도달했을 때 가능한 구조입니다.

▲ 목차로 돌아가기

reasoning_effort 파라미터, 꺼두면 어떻게 되나요?

Mistral Small 4에는 reasoning_effort 파라미터가 있습니다. 이 값을 "none"으로 설정하면 어떻게 될까요? 공식 문서는 이렇게 명시합니다:

“reasoning_effort=’none’: Fast, lightweight responses for everyday tasks, equivalent to the same chat style of Mistral Small 3.2.”

(출처: Mistral AI Docs, docs.mistral.ai, 2026.03.16)

즉, reasoning을 완전히 끄면 Mistral Small 4는 사실상 Mistral Small 3.2와 동등한 응답 스타일로 동작합니다. 새 모델을 비싸게 배포하면서도 추론 기능을 쓰지 않으면 이전 세대와 차이가 없는 셈입니다. 비용을 절약하려고 reasoning을 꺼두는 선택이 나쁜 건 아니지만, 그렇다면 굳이 Small 4를 선택할 이유가 멀티모달 기능 외에는 제한적입니다.

반대로 "high"로 설정하면 이전 Magistral Small과 동등한 수준의 추론 깊이를 냅니다. 이 두 상태의 중간은 없습니다. 현재 공식 API에서 지원하는 값은 "none"과 "high"뿐이고, 중간 강도인 "low"/"medium"은 현재 기준 확인 필요입니다. (출처: Mistral AI 공식 문서 기준 v26.03)

▲ 목차로 돌아가기

NVIDIA Nemotron Coalition 합류, 그냥 홍보가 아닙니다

Mistral AI는 이번 Small 4 출시와 함께 NVIDIA Nemotron Coalition의 창립 멤버로 합류했습니다. (출처: Mistral AI 공식 블로그, 2026.03.16) 뉴스만 보면 마케팅처럼 보이지만, 인프라 관점에서는 다른 의미가 있습니다.

💡 발표 시점과 NVIDIA 인프라 연동 일정을 같이 놓고 보니 이런 흐름이 보였습니다.

Mistral Small 4는 출시 당일(2026.03.16) NVIDIA NIM(Optimized Inference Microservice)으로 즉시 배포 가능 상태였습니다. (출처: build.nvidia.com, 2026.03.16) 이는 단순한 HuggingFace 업로드와 다릅니다. NIM은 컨테이너 단위로 즉시 프로덕션 배포가 가능한 구조이고, Speculative Decoding용 Eagle Head(Mistral-Small-4-119B-2603-eagle)와 NVFP4 4비트 양자화 체크포인트까지 동시에 제공됐습니다. 오픈소스 모델이 이 수준의 프로덕션 준비 상태로 나오는 것은 흔한 일이 아닙니다.

이 협력이 실사용에서 의미하는 것은 기업 환경 배포의 진입 장벽이 낮아진다는 점입니다. 자체 클라우드 또는 온프레미스에서 최적화된 컨테이너로 바로 올릴 수 있다는 건, 기업이 Mistral API에 의존하지 않고도 동급 성능을 자사 인프라에서 구현할 수 있다는 뜻입니다.

▲ 목차로 돌아가기

GPT-OSS 120B와 비교했을 때 실제로 더 짧습니다

성능 수치에서 가장 눈에 띄는 데이터는 출력 길이 비교입니다. 공식 발표 자료에는 아래 수치가 제시됩니다. (출처: Mistral AI 공식 블로그, 2026.03.16)

표: 벤치마크별 출력 길이 비교 (공식 수치, 2026.03.16)
벤치마크	Mistral Small 4	Qwen 계열	GPT-OSS 120B
AA LCR 점수	0.72	유사 수준	유사 수준
AA LCR 출력 길이	1.6K 문자	5.8~6.1K 문자	비교 대상
LiveCodeBench	GPT-OSS 120B 초과	—	기준

AA LCR 기준으로 Qwen 계열이 유사한 점수를 내려면 3.5~4배 더 긴 출력을 만들어냅니다. 이게 실생활에서 의미하는 것은 간단합니다. 같은 답을 내는 데 Qwen은 6천 문자짜리 응답을 만들고, Mistral Small 4는 1,600문자로 끊습니다. API 비용은 출력 토큰에 비례하기 때문에, 성능이 같다면 짧게 끊는 모델이 실제 운영 비용이 낮습니다.

▲ 목차로 돌아가기

이걸 쓰기 좋은 상황, 그렇지 않은 상황

수치와 스펙을 바탕으로 솔직하게 정리해보면, Mistral Small 4가 유리한 상황은 꽤 분명합니다. 멀티모달(이미지+텍스트 혼합)이 필요하면서 동시에 수식 추론이나 코드 생성을 같은 파이프라인 안에서 처리해야 하는 경우가 대표적입니다. 기존에는 이 세 가지를 각각 다른 모델로 처리하거나 더 비싼 플래그십 모델을 써야 했는데, Apache 2.0 라이선스 오픈소스 단일 모델로 해결할 수 있다는 점은 실질적인 이점입니다.

반면 이 모델을 굳이 선택할 필요가 없는 상황도 있습니다. 일반적인 챗봇이나 단순 Q&A처럼 reasoning이 전혀 필요 없는 태스크라면, reasoning을 꺼야 하는데 그렇게 하면 Mistral Small 3.2와 동일한 성능이 나옵니다. 그러면서 119B MoE 모델을 구동하기 위한 하드웨어 비용은 그대로 발생합니다. 로컬 배포 없이 API만 쓴다면 요금은 동일하지만, 자체 서버를 운영한다면 Small 3.2보다 훨씬 무거운 인프라가 필요합니다.

한 줄 정리

Mistral Small 4는 멀티모달·추론·코딩 에이전트를 하나의 API로 연결해야 하는 중간 규모 파이프라인에 적합합니다. reasoning=none으로만 쓸 거라면, 24B짜리 Mistral Small 3.2가 더 가볍고 실질적입니다.

▲ 목차로 돌아가기

자주 묻는 것들

Q. Mistral Small 4를 무료로 쓸 수 있나요?

NVIDIA의 build.nvidia.com에서 NVIDIA 계정으로 로그인하면 프로토타입 용도로 무료 테스트가 가능합니다. 모델 자체는 Apache 2.0 라이선스로 HuggingFace에서 무료로 다운로드 가능하지만, 앞서 설명한 것처럼 로컬 실행에는 H100급 GPU가 필요합니다. Mistral API를 통한 상업적 사용은 유료입니다. (출처: Mistral AI Docs, 2026.03.16)

Q. 119B인데 왜 이름이 “Small”인가요?

Mistral AI의 모델 명명 체계에서 “Small”은 총 파라미터가 아닌 토큰당 활성 파라미터 기준으로 붙여집니다. 6.5B가 활성화되기 때문에 응답 속도와 추론 비용이 6~7B 모델과 유사한 수준이 됩니다. 총 파라미터 119B는 전체 전문가 모듈을 메모리에 올리는 용도이고, 실제 연산은 4개 전문가(6.5B)만 담당합니다. (출처: Mistral AI 공식 블로그, 2026.03.16)

Q. 기존 Magistral Small을 쓰던 사람은 바꿔야 하나요?

reasoning=high로 설정하면 Magistral Small과 동등한 추론 성능이 나옵니다. 여기에 이미지 입력까지 지원되기 때문에, 기존에 Magistral Small을 추론 목적으로 쓰던 파이프라인이라면 Small 4로 교체할 실익이 있습니다. 단, 앞서 언급한 것처럼 reasoning 모드에서의 출력 토큰이 더 많아질 수 있으므로 비용 추이를 먼저 확인해보는 것이 좋습니다. (출처: Mistral AI Docs, 2026.03.16)

Q. Mistral Small 4가 GPT-4o mini보다 나은가요?

단순 비교는 어렵습니다. 입력 가격은 같지만($0.15/M), Mistral Small 4는 reasoning 모드에서 출력이 훨씬 많아집니다. 반면 오픈소스이고 멀티모달+추론을 하나로 처리한다는 점은 GPT-4o mini에는 없는 장점입니다. 코딩·추론이 중심이고 자체 배포나 파인튜닝이 필요한 워크플로우라면 Mistral Small 4가 유리합니다. 단순 대화형 서비스라면 굳이 교체할 이유가 없습니다.

Q. 파인튜닝도 가능한가요?

가능합니다. Apache 2.0 라이선스이므로 상업적 파인튜닝에도 제한이 없습니다. NVIDIA NeMo를 통한 도메인 특화 파인튜닝이 공식 지원됩니다. (출처: NVIDIA NeMo GitHub, 2026.03.16) 다만 119B MoE 전체 파인튜닝은 H100/H200급 멀티 GPU 환경이 필요합니다.

▲ 목차로 돌아가기

마치며 — 총평

Mistral Small 4는 기술적으로 잘 만든 모델입니다. 세 가지 역할을 하나로 합친 설계, NVIDIA와의 즉시 배포 협력, Apache 2.0 라이선스의 조합은 오픈소스 AI 생태계에서 의미 있는 진전입니다. 출시 당일 NIM 컨테이너까지 함께 배포한 것은 이 모델이 단순한 기술 시연용이 아니라는 걸 보여줍니다.

그런데 “Small”이라는 이름을 보고 기대했던 것과 실제 운영 조건은 꽤 다릅니다. 로컬 배포를 생각하고 있다면 H100 4장이 최소 사양이라는 사실을 먼저 확인해야 합니다. reasoning 모드를 적극적으로 쓸 계획이라면 출력 토큰 비용을 기존보다 7배 선에서 계산해야 예산이 맞습니다. 이 두 가지를 알고 도입하는 것과 모르고 도입하는 것은 결과가 완전히 달라집니다.

오픈소스 진영에서 상업용 모델과 겨룰 수 있는 단일 멀티모달+추론 모델이 나왔다는 것 자체는 긍정적입니다. 단, 이 모델을 선택할 때는 태스크 유형과 배포 환경을 먼저 정의하고 그다음에 비용 구조를 검토하는 순서를 권장합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Mistral AI 공식 블로그 — Introducing Mistral Small 4
https://mistral.ai/news/mistral-small-4
Mistral AI 공식 문서 — mistral-small-4-0-26-03
https://docs.mistral.ai/models/mistral-small-4-0-26-03
NVIDIA NIM 모델 카드 — mistral-small-4-119b-2603
https://build.nvidia.com/mistralai/mistral-small-4-119b-2603/modelcard
Artificial Analysis — Mistral Small 4 (Reasoning) 평가
https://artificialanalysis.ai/models/mistral-small-4

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격·스펙 수치는 2026년 3월 16~18일 기준 공식 발표 자료를 근거로 작성됐으며, 이후 업데이트에 의해 달라질 수 있습니다. 투자·사업 결정에 본 포스팅 내용을 단독으로 활용하지 마시고 반드시 최신 공식 문서를 직접 확인하시기 바랍니다.

Mistral Small 4, 써봤더니 이게 달랐습니다

Mistral Small 4, 써봤더니 이게 달랐습니다

119B인데 로컬에서 돌아갈까요?

추론 모드를 켜면 비용이 이렇게 됩니다

하나로 합쳤다는 게 실제로 어떤 의미인가요

reasoning_effort 파라미터, 꺼두면 어떻게 되나요?

NVIDIA Nemotron Coalition 합류, 그냥 홍보가 아닙니다

GPT-OSS 120B와 비교했을 때 실제로 더 짧습니다

이걸 쓰기 좋은 상황, 그렇지 않은 상황

자주 묻는 것들

마치며 — 총평

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 써봤더니 이게 달랐습니다

119B인데 로컬에서 돌아갈까요?

추론 모드를 켜면 비용이 이렇게 됩니다

하나로 합쳤다는 게 실제로 어떤 의미인가요

reasoning_effort 파라미터, 꺼두면 어떻게 되나요?

NVIDIA Nemotron Coalition 합류, 그냥 홍보가 아닙니다

GPT-OSS 120B와 비교했을 때 실제로 더 짧습니다

이걸 쓰기 좋은 상황, 그렇지 않은 상황

자주 묻는 것들

마치며 — 총평

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기