Mistral Small 4, 무료라고요? 로컬 실행 조건 먼저 보세요

Published on

in

Mistral Small 4, 무료라고요? 로컬 실행 조건 먼저 보세요

2026.03.16 출시 기준
Apache 2.0
MoE 119B

Mistral Small 4, 무료라고요?
로컬 실행 조건 먼저 보세요

Apache 2.0으로 완전 무료, 119B 파라미터에 추론·코딩·비전까지 한 모델에 담았다는 소식에 귀가 솔깃했다면 — 이 숫자부터 확인하세요.

119B
총 파라미터
6.5B
토큰당 활성 파라미터
256K
컨텍스트 윈도우
~70GB
로컬 실행 최소 RAM(Q4)

Mistral Small 4가 뭔데 이렇게 화제일까요

2026년 3월 16일, 프랑스 AI 기업 Mistral이 Mistral Small 4를 공개했습니다. 핵심은 “한 모델에 세 가지 다 담았다”는 겁니다. 기존에 추론은 Magistral, 코딩 에이전트는 Devstral, 일반 대화는 Mistral Small Instruct로 따로 써야 했는데, Small 4는 이 세 역할을 하나에 통합했습니다. (출처: Mistral AI 공식 블로그, 2026.03.16)

Apache 2.0 라이선스로 풀렸다는 점도 주목받은 이유입니다. 상업·비상업 구분 없이 무제한 활용이 가능하고, 파인튜닝도 자유롭습니다. Hugging Face에서 바로 내려받을 수 있고, NVIDIA NIM을 통해 클라우드 API로도 제공됩니다.

문제는 “무료 + 강력”이라는 타이틀 뒤에 실제 사용 조건이 생각보다 까다롭다는 점입니다. 바로 그 부분을 이 글에서 공식 수치로 짚어보겠습니다.

▲ 목차로 돌아가기

119B인데 “Small”이라는 이유 — MoE 구조가 핵심입니다

💡 공식 발표문과 실제 아키텍처 스펙을 나란히 놓고 보면 “Small”이라는 이름의 실제 의미가 달리 보입니다.

Mistral Small 4는 Mixture-of-Experts(MoE) 구조입니다. 총 파라미터는 119B이지만, 토큰 하나를 처리할 때 실제로 활성화되는 건 128개 전문가 중 딱 4개 — 즉 활성 파라미터 6.5B입니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)

Mistral이 “Small”이라고 부르는 근거는 여기 있습니다. 실제 연산량 기준으로는 6~7B 수준의 밀집(Dense) 모델과 비슷하게 빠릅니다. 공식 발표에서는 지연 최적화 설정 기준 전체 완료 시간 40% 감소, 처리량 최적화 설정 기준 초당 요청 수 3배 향상을 Mistral Small 3 대비 달성했다고 밝혔습니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16) 속도만 놓고 보면 확실히 “Small답게” 빠릅니다.

하지만 이름과 실제 메모리 요구사항은 다른 이야기입니다. 활성 파라미터가 6.5B라도 나머지 112.5B 파라미터는 고스란히 메모리에 올라가 있어야 합니다. 이 부분에서 많은 사람이 착각합니다.

▲ 목차로 돌아가기

무료인데 로컬 실행이 왜 이렇게 어렵냐는 질문

💡 활성 파라미터 6.5B를 보고 “RTX 4070 한 장으로 되겠네”라고 생각했다면 — 실제로는 그렇지 않습니다. 총 파라미터 119B 전체가 메모리에 올라가야 합니다.

r/LocalLLaMA 커뮤니티의 실제 측정치에 따르면, Q4 양자화 기준으로 약 70GB의 통합 메모리(RAM+VRAM)가 필요합니다. (출처: r/LocalLLaMA, 2026.03.16) 24GB VRAM을 가진 RTX 4090 한 장으로는 절대 실행이 안 됩니다.

실행 환경 가능 여부 비고
RTX 4090 × 1 (24GB) ❌ 불가 VRAM 부족
NVIDIA HGX H100 × 4 ✅ 최소 권장 공식 최소 구성
NVIDIA HGX H200 × 2 ✅ 최소 권장 공식 최소 구성
NVIDIA DGX B200 × 1 ✅ 최소 권장 공식 최소 구성
Mac Studio (128GB 통합 메모리) ⚠️ 조건부 속도 저하 감수 필요
일반 PC (RAM 96GB DDR5) ⚠️ 조건부 10~20 TPS 수준

(출처: Mistral AI 공식 발표 + r/LocalLLaMA 커뮤니티 측정치, 2026.03.16)

공식 권장 구성은 H100 또는 H200 4장, 혹은 DGX B200 2장입니다. 기업용 인프라가 없는 개인이라면 사실상 로컬 실행은 비현실적입니다. “Apache 2.0 무료 라이선스”와 “실제 사용 가능”은 다른 이야기입니다. 라이선스는 무료이지만 실행 비용은 별개입니다.

물론 Mistral API와 NVIDIA NIM을 통해 클라우드로 사용하는 건 가능합니다. 비용 부담 없이 써보고 싶다면 build.nvidia.com에서 무료 프로토타이핑을 지원합니다. 하지만 “집 서버에서 돌린다”는 건 현재 기준으로 매우 제한적입니다.

▲ 목차로 돌아가기

reasoning_effort 파라미터 — 한 모델이 두 개처럼 작동합니다

💡 공식 모델 카드와 실제 API 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — reasoning_effort를 어떻게 쓰느냐에 따라 사실상 두 개의 다른 모델이 됩니다.

Mistral Small 4의 독특한 기능 중 하나는 reasoning_effort 파라미터입니다. 요청마다 동적으로 추론 강도를 조절할 수 있습니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16)

⚡ reasoning_effort=”none”

빠르고 가벼운 응답 모드. Mistral Small 3.2와 동등한 대화 스타일로 작동합니다. 일상적인 질의응답, 요약, 번역처럼 복잡한 추론이 필요 없는 태스크에 최적입니다.

🧠 reasoning_effort=”high”

심층 추론 모드. 기존 Magistral 모델과 동등한 단계적 추론을 수행합니다. 수학, 코딩, 복잡한 문제 해결에서 성능이 눈에 띄게 달라집니다. 단, 응답 시간도 늘어납니다.

실용적인 의미는 이렇습니다. 예전에는 빠른 응답이 필요하면 Small, 복잡한 추론이 필요하면 Magistral로 모델을 따로 유지해야 했습니다. Small 4는 그 전환을 API 파라미터 하나로 처리합니다. 운영 비용과 인프라 복잡도를 동시에 줄일 수 있는 구조입니다.

단 주의할 점이 있습니다. reasoning=”high”로 설정하면 Qwen이 비슷한 성능을 내면서 3.5~4배 더 긴 출력을 생성하는 반면, Small 4는 상당히 짧게 끝내는 경향이 있습니다. AA LCR 벤치마크에서 Small 4는 1.6K 문자로 0.72점을 기록했는데, Qwen 모델은 동등 점수를 위해 5.8~6.1K 문자가 필요했습니다. (출처: mistral.ai/news/mistral-small-4) 출력 효율이 높다는 의미입니다.

▲ 목차로 돌아가기

벤치마크 수치, 직접 따져봤더니 생각과 달랐습니다

💡 119B라는 숫자가 주는 기대감과 실제 벤치마크 결과 사이에는 꽤 큰 간극이 있습니다. Qwen3.5 35B-A3B와 비교하면 특히 두드러집니다.

r/LocalLLaMA에 올라온 직접 비교 측정치를 보면 아래와 같습니다. 이 수치가 중요한 이유는 Qwen3.5 35B-A3B가 총 파라미터가 3분의 1도 안 되는 모델임에도 전 영역에서 앞서기 때문입니다. (출처: r/LocalLLaMA, 2026.03.16)

모델 파라미터 GPQA Diamond MMLU Pro LiveCodeBench
Mistral Small 4 (추론 모드) 119B 총 / 6.5B 활성 71.2 78.0 63.6
Qwen3.5-35B-A3B 35B 총 / 3B 활성 84.2 85.3 74.6

(출처: r/LocalLLaMA 커뮤니티 측정치, 2026.03.16) — 높을수록 좋음.

총 파라미터 기준으로 Qwen3.5-35B-A3B는 Small 4의 약 29% 수준이지만 성능은 오히려 전 영역에서 앞섭니다. 왜냐면 실제 성능은 총 파라미터보다 활성 파라미터의 품질과 훈련 방식에 더 많이 달려 있기 때문입니다. Small 4의 활성 파라미터는 6.5B이고, Qwen3.5-35B-A3B의 활성 파라미터는 3B입니다. 활성 파라미터는 Qwen이 절반인데 성능은 더 높습니다.

한편 LiveCodeBench에서 Small 4는 GPT-OSS 120B를 20% 더 짧은 출력으로 제치는 결과를 보였습니다. (출처: mistral.ai/news/mistral-small-4) 같은 수준의 정답을 더 짧게 낸다는 건 API 비용과 레이턴시 모두에 직결됩니다.

결론적으로 말씀드리면, Small 4는 “Qwen3.5 122B급 경쟁자”라기보다 출력 효율이 높은 엔터프라이즈용 통합 모델에 더 가깝습니다. 순수 성능 수치보다 유지보수 단순화와 출력 토큰 절감이 실제 가치의 중심입니다.

▲ 목차로 돌아가기

Mistral Small 4가 실제로 유리한 경우는 따로 있습니다

💡 벤치마크 수치만 보면 놓치는 게 있습니다. Mistral이 실제로 우위를 가지는 상황은 꽤 구체적입니다.

Mistral 모델이 커뮤니티에서 계속 사용되는 이유 중 하나는 검열 수준입니다. 비슷한 성능의 경쟁 모델보다 오픈 소스 프론티어 정책을 유지하면서 아웃오브더박스로 검열이 낮은 편입니다. 콘텐츠 제한이 엄격한 Claude나 GPT 계열보다 자유로운 창작·롤플레이 분야에서 선호됩니다.

그 외에 Small 4가 실제로 강점을 보이는 영역은 아래와 같습니다.

  • 유럽어 다국어 처리: 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 네덜란드어 등에서 경쟁 모델보다 일관되게 높은 품질을 보입니다. 특히 법률·행정 문서처럼 유럽어 맥락이 중요한 B2B 케이스에서 강합니다.
  • 한 모델 배포로 TCO 절감: 추론·코딩·비전을 따로 유지하던 인프라를 하나로 통합할 수 있습니다. 라이선스 비용 없이 파인튜닝 후 온프레미스 배포가 가능해 장기 운영 비용이 낮아집니다.
  • 256K 컨텍스트 + 비전: 긴 문서를 이미지 형태로 처리하거나, 수십 페이지 계약서를 단일 요청으로 분석하는 케이스에서 256K 컨텍스트와 멀티모달 입력이 동시에 필요할 때 선택지가 됩니다.
  • 파인튜닝 자유도: Apache 2.0 라이선스이므로 결과물의 소유권이 모두 사용하는 쪽에 있습니다. 데이터 주권이 중요한 금융·의료 산업에서 선택 이유가 됩니다.

솔직히 말하면, 순수 성능 벤치마크에서는 Qwen3.5 122B-A10B나 Nemotron 3 Super 120B-A12B에 뒤집니다. Small 4를 선택하는 이유는 성능보다 라이선스 자유도 + 통합 운영 편의 + 유럽 규정 준수 쪽입니다.

▲ 목차로 돌아가기

결론 — 어떤 상황에서 쓰고 어떤 상황에서 패스할지

Mistral Small 4는 좋은 모델입니다. 하지만 “좋다”와 “나한테 맞다”는 다른 얘기입니다. 정리하면 이렇습니다.

✅ 이 경우엔 Small 4
  • 온프레미스 배포로 라이선스 비용 제거 목표
  • 추론·코딩·비전 세 가지를 하나의 API로 운용
  • 유럽어 다국어 + 유럽 규정 준수 필요
  • 파인튜닝 후 결과물 소유권 완전 확보 필요
  • 출력 토큰 절감이 운영 비용에 직결되는 환경
❌ 이 경우엔 다른 선택지
  • 개인 PC·로컬 환경에서 실행 (70GB RAM 부족)
  • 순수 코딩·수학 벤치마크 최상위가 필요
  • RTX 4090 한 장 수준 소비자 GPU로 운용
  • 추론 없는 빠른 일반 대화만 필요한 경우

Apache 2.0 무료 라이선스의 가치는 분명합니다. 하지만 그 가치를 온전히 누리려면 H100급 인프라가 필요합니다. 개인 개발자나 소규모 팀이라면 Mistral API 또는 NVIDIA NIM으로 접근하는 쪽이 현실적입니다. 클라우드로 쓰면 라이선스 비용 절감 효과는 사실상 사라지지만, 통합 모델로 인한 운용 단순화와 출력 효율은 여전히 유효합니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. Mistral Small 4는 완전 무료인가요?
라이선스는 Apache 2.0으로 완전 무료입니다. 모델 자체를 내려받아 사용하고 상업적으로 활용하거나 파인튜닝하는 데 비용이 없습니다. 단, 직접 실행하려면 H100급 인프라가 필요하고, Mistral API나 NVIDIA NIM을 통해 사용하면 API 사용 요금이 발생합니다. 라이선스 무료와 실행 비용 무료는 다른 개념입니다.
Q2. 119B인데 왜 “Small”이라고 부르나요?
MoE(Mixture-of-Experts) 구조 때문입니다. 총 119B 파라미터 중 실제로 연산에 사용되는 활성 파라미터는 6.5B에 불과합니다. 연산 속도는 6~7B 밀집 모델과 비슷하게 빠르기 때문에, Mistral은 이 기준으로 “Small”이라고 명명했습니다. 하지만 메모리에는 119B 전체가 올라가야 하므로 실행 환경 요구사항은 전혀 “Small”하지 않습니다.
Q3. reasoning_effort 파라미터를 항상 “high”로 쓰면 안 되나요?
복잡한 수학·코딩 문제가 아닌 일상 대화나 요약 업무에서는 “high”로 설정하면 응답 시간이 길어지고 비용이 올라갑니다. Hugging Face 공식 문서에서는 “none”으로 시작해서 필요한 케이스에만 “high”를 쓰도록 권장합니다. temperature도 다릅니다 — “none”은 0.0~0.7, “high”는 0.7이 권장 설정입니다.
Q4. Qwen3.5보다 성능이 낮은데 왜 선택해야 하나요?
Qwen은 중국 기업 Alibaba 산하 모델이라 유럽 기업이나 규정상 중국산 모델을 쓰기 어려운 환경에서는 선택지에서 빠집니다. Mistral은 프랑스 기업으로 EU AI 규정 준수와 데이터 주권 측면에서 B2B 계약에서 선호됩니다. 또한 출력 효율(더 짧은 토큰으로 동등 점수)과 통합 모델 운영 편의가 실제 TCO 절감으로 이어지는 경우도 있습니다.
Q5. 한국어 지원은 어떤가요?
공식 지원 언어 목록에 한국어(Korean)가 명시되어 있습니다. (출처: Hugging Face 공식 모델 카드) 다만 Mistral의 주력은 유럽어이고, 한국어 품질에 대한 공식 벤치마크 수치가 별도로 공개된 이유는 아직 없습니다. 한국어 성능만 놓고 보면 Qwen이나 HyperCLOVA X 계열이 더 강한 편이라는 게 커뮤니티 평가입니다.

▲ 목차로 돌아가기

마치며 — 총평

Mistral Small 4는 “무료 + 강력 + 올인원”이라는 포지셔닝이 마케팅적으로 완벽합니다. 그리고 그 가치는 실제로 존재합니다. 세 개의 전문 모델을 하나로 통합한 점, Apache 2.0 라이선스로 완전한 파인튜닝 자유를 준 점, 출력 효율이 Qwen보다 높은 점은 기업 배포 환경에서 진짜 강점입니다.

하지만 두 가지는 직접 확인해야 합니다. 첫째, 119B MoE는 로컬 실행에 70GB RAM이 필요합니다. “활성 파라미터 6.5B”를 보고 소비자 GPU로 돌아간다고 착각하면 안 됩니다. 둘째, 벤치마크 수치는 Qwen3.5 35B-A3B에도 뒤집힙니다. 숫자가 크다고 성능이 높은 게 아닙니다.

결국 Mistral Small 4는 성능 경쟁에서 이기는 모델이 아니라, 운영 구조를 단순화하면서 라이선스 비용을 제거하려는 기업을 위한 모델입니다. 그 맥락에서 쓴다면 충분히 좋은 선택입니다.

본 포스팅 참고 자료

  1. Mistral AI 공식 블로그 — Introducing Mistral Small 4 https://mistral.ai/news/mistral-small-4
  2. Hugging Face 공식 모델 카드 — mistralai/Mistral-Small-4-119B-2603 https://huggingface.co/mistralai/Mistral-Small-4-119B-2603
  3. NVIDIA NIM 모델 카드 https://build.nvidia.com/mistralai/mistral-small-4-119b-2603
  4. r/LocalLLaMA — Mistral Small 4 : 119B-2603 스레드 (2026.03.16)
  5. kaitchup.substack.com — Mistral Small 4: A Good Alternative to Qwen3.5 122B (2026.03.20)

⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. IT/AI 서비스는 빠르게 업데이트되므로 최신 정보는 Mistral AI 공식 홈페이지 및 Hugging Face 모델 카드에서 직접 확인하시길 권장합니다. 본 포스팅은 2026년 4월 2일 기준으로 작성되었습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기