MiniMax M2.7 기준
API 가격 기준
MiniMax M2.7, 가격이 7%인데
성능이 같다고요?
Claude Opus 4.6와 실전 코딩 3종 테스트를 돌려봤더니 버그 검출은 동률이었습니다.
비용은 $3.67 대 $0.27 — 공식 수치로 직접 따져봤습니다.
M2.7이 뭔지부터 — 전작과 뭐가 다른가
MiniMax M2.7은 2026년 3월 18일 공개된 MiniMax의 최신 프로프라이어터리 LLM입니다. 전작인 M2.5가 2026년 2월 12일에 나온 뒤 겨우 한 달 만의 업데이트인데, 단순한 성능 개선 버전이 아닙니다. M2.7이 내세우는 핵심 차별점은 “모델 스스로가 자신의 강화학습 실험에 참여했다”는 점입니다.
MiniMax는 중국 상하이에 본사를 둔 AI 스타트업으로, 이전 세대 모델들(M2, M2.5)은 오픈소스로 공개했습니다. 그런데 M2.7은 일단 프로프라이어터리로 출시하고, 오픈 웨이트(가중치 공개)는 약 2주 후로 예고한 상태입니다(출처: MiniMax X 계정, 2026.03.19). API와 MiniMax Agent 플랫폼에서는 지금 바로 쓸 수 있습니다.
M2.5는 “오픈소스 최강 코딩 모델”로 포지셔닝했지만, M2.7은 에이전트 팀(Agent Teams) 기능과 복잡한 스킬 관리를 전면에 내세웁니다. 코드 한 줄 잘 쓰는 것에서, 실제 프로덕션 시스템을 이해하고 운영하는 방향으로 포커스가 옮겨졌습니다.
주요 벤치마크 결과를 먼저 보면 이렇습니다. SWE-Pro(실세계 소프트웨어 엔지니어링) 56.22%, VIBE-Pro(전체 프로젝트 납품) 55.6%, Terminal Bench 2(복잡한 엔지니어링 시스템 이해) 57.0%, GDPval-AA(전문 오피스 작업 ELO) 1495. MLE-Bench Lite(자율 머신러닝 연구)에서는 메달 취득률 66.6%로 Gemini 3.1과 동률이었습니다 (출처: MiniMax 공식 블로그, 2026.03.18).
고성능 모델이 더 부정확하다는 통념이 뒤집혔습니다
할루시네이션 비율: M2.7 34% vs Claude Sonnet 4.6 46% vs Gemini 3.1 Pro 50%
많은 사람들이 “중국산 저가 모델은 그만큼 환각이 심하겠지”라고 생각합니다. 그런데 VentureBeat가 공식 발표 자료를 분석한 결과는 다릅니다. M2.7의 할루시네이션 비율은 34%인 반면, Claude Sonnet 4.6은 46%, Gemini 3.1 Pro Preview는 50%입니다 (출처: VentureBeat, MiniMax 공식 자료 인용, 2026.03.18). 더 비싼 모델이 더 정확할 거라는 기대가 이 수치에서는 성립하지 않습니다.
| 모델 | 할루시네이션 비율 | 입력 단가(1M) |
|---|---|---|
| MiniMax M2.7 | 34% | $0.30 |
| Claude Sonnet 4.6 | 46% | $3.00 |
| Gemini 3.1 Pro Preview | 50% | $2.00 |
물론 할루시네이션 비율은 벤치마크 구성 방식에 따라 달라지므로 단순 비교는 신중해야 합니다. MiniMax가 사용한 AA-Omniscience Index는 자사 기준이 포함된 측정이며, 이 수치만으로 “M2.7이 가장 정확하다”고 단정할 수는 없습니다. 다만 “저렴한 모델 = 환각이 심하다”는 가정 자체는 이 데이터에서 지지되지 않습니다.
M2.5의 AA-Omniscience Index 점수는 -40점이었고 M2.7은 +1점입니다. 한 달 사이 41점 차이. 같은 기간 가격은 그대로($0.30/$1.20)입니다 (출처: Artificial Analysis, 2026.03.18). 가격을 올리지 않고 이 폭의 정확도 개선을 이뤄낸 건 주목할 만합니다.
가격은 7%, 버그 검출은 동률 — 실측 데이터
Kilo Code 팀의 3종 실전 테스트 결과
AI 코딩 도구 Kilo Code 팀이 M2.7과 Claude Opus 4.6을 동일한 3개의 TypeScript 코드베이스에 적용해 비교했습니다 (출처: Kilo Code 블로그, 2026.03.22). 테스트 항목은 ①전체 이벤트 처리 시스템 신규 구축, ②프로덕션 로그에서 버그 6개 추적, ③보안 취약점 10개 감사입니다. 같은 프롬프트, 힌트 없음, 독립적 채점 방식으로 진행했습니다.
| 테스트 항목 | Claude Opus 4.6 | MiniMax M2.7 |
|---|---|---|
| 버그 검출 (6개) | 6/6 ✓ | 6/6 ✓ |
| 보안 취약점 (10개) | 10/10 ✓ | 10/10 ✓ |
| 통합 테스트 수 | 41개 | 20개 |
| 3회 테스트 총 비용 | $3.67 | $0.27 |
검출 성능은 같은데, 비용은 M2.7이 Claude Opus 4.6의 약 7.3%입니다. 단순 계산: $0.27 ÷ $3.67 = 0.0736 → 반올림하면 7.4%. 1만 번의 API 호출로 환산하면 Claude Opus 4.6은 약 36만 7천 달러, M2.7은 약 2만 7천 달러가 됩니다. 검출 성능이 동일하다면 이 차이는 무시하기 어렵습니다.
Claude Opus 4.6은 통합 테스트를 41개 작성하고, 롤백 로직과 다층 보안 수정을 포함합니다. M2.7은 20개의 유닛 테스트만 작성했고, 보안 수정 일부를 기능 비활성화로 해결했습니다. “버그를 찾는 것”과 “운영 환경에 바로 배포할 수 있는 수준의 수정”은 다릅니다. 최종 납품 품질이 기준이라면 격차는 존재합니다.
AI가 자신을 훈련한다는 말의 실제 의미
M2.7이 자신의 개발 워크플로 30~50%를 직접 처리했습니다
MiniMax가 M2.7 개발 중 사용한 방식은 이렇습니다. 이전 버전의 M2.7 모델을 연구 에이전트 하네스에 연결해, 데이터 파이프라인 구축·학습 환경 관리·평가 실행·디버깅·메트릭 분석을 자율적으로 수행하게 했습니다. 이 과정에서 모델이 자신의 강화학습 실험 워크플로의 30~50%를 처리했다고 공식 발표문에 명시돼 있습니다 (출처: MiniMax 공식 블로그, 2026.03.18).
MLE-Bench Lite(OpenAI가 오픈소스로 공개한 머신러닝 경진대회 22개)에서는 M2.7이 24시간씩 3회 자율 실험을 돌렸고, 최종 결과로 금메달 9개, 은메달 5개, 동메달 1개를 획득했습니다. 평균 메달 취득률 66.6%는 Claude Opus 4.6(75.7%), GPT-5.4(71.2%)에 이은 3위이며, Gemini 3.1과 동률입니다 (출처: MiniMax 공식 블로그, 2026.03.18). 단일 A30 GPU로 돌릴 수 있는 조건에서 나온 결과입니다.
M2.7은 100회 이상의 자율 반복 루프를 통해 온도(temperature), 빈도 패널티, 존재 패널티 같은 샘플링 파라미터 조합을 스스로 탐색하고, 동일한 버그 패턴이 다른 파일에도 있는지 자동으로 검색하는 워크플로 가이드라인을 직접 설계했습니다. 이 과정에서 내부 평가 기준으로 30% 성능 향상이 측정됐습니다. 사람이 설계한 규칙이 아니라 모델이 발견한 패턴이라는 점에서 이전 세대와 성격이 다릅니다.
M2.7이 오히려 불리한 조건이 있습니다
빠른 반복 작업에는 전작 M2.5가 나을 수 있습니다
Kilo Code 팀의 Kilo Bench(89개 코딩 자율 작업) 결과에서 M2.7의 중간 작업 소요시간(median task duration)은 355초로, 전작들보다 눈에 띄게 깁니다 (출처: Reddit r/LocalLLaMA, Kilo Code 벤치마크, 2026.03.19). M2.7은 코드를 쓰기 전에 주변 파일을 광범위하게 읽고, 의존성을 추적하고, 호출 체인을 탐색하는 패턴이 있습니다. 컨텍스트가 중요한 복잡한 리팩터링에서는 강점이지만, 시간 제한이 있는 단순 작업에서는 타임아웃으로 실패하기도 합니다.
BridgeBench(바이브 코딩, 자연어를 코드로 전환하는 능력) 기준으로는 M2.5가 12위, M2.7이 19위로 전작이 더 좋은 점수를 기록했습니다 (출처: BridgeMind, 2026.03.18). 최신 버전이라고 모든 작업에서 앞서는 건 아닙니다.
- 짧은 타임아웃이 걸린 CI/CD 파이프라인 내 자동 코딩
- 단순한 코드 스니펫 생성이 주목적인 경우
- 자연어를 단순 코드로 빠르게 변환하는 바이브 코딩
- 완성도 높은 보안 수정을 한 번에 납품해야 하는 경우
- 중국 서버 데이터 처리가 허용되지 않는 규제 환경
마지막 항목은 놓치기 쉬운 부분입니다. MiniMax는 중국 법인이며, 미국이나 EU에서 고규제 산업(금융, 의료, 국방 관련)의 기업이 도입할 때는 데이터 주권 리스크를 별도로 검토해야 합니다. VentureBeat도 이 점을 명시했습니다 (출처: VentureBeat, 2026.03.18).
가격 구조와 요금제 실전 계산
API 호출 vs 구독 플랜, 어떻게 다른가
M2.7을 쓰는 방법은 크게 두 가지입니다. API를 직접 호출하거나, MiniMax의 토큰 플랜에 구독하는 방식입니다. API 가격은 입력 토큰 1M당 $0.30, 출력 1M당 $1.20로 M2.5와 동일합니다 (출처: MiniMax 공식 API 문서, 2026.03.18). 이를 경쟁 모델과 직접 비교하면 이렇습니다.
| 모델 | 입력(1M) | 출력(1M) | 합산 |
|---|---|---|---|
| MiniMax M2.7 | $0.30 | $1.20 | $1.50 |
| Gemini 3 Flash | $0.50 | $3.00 | $3.50 |
| GPT-5.2 | $1.75 | $14.00 | $15.75 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $18.00 |
| Claude Opus 4.6 | $5.00 | $25.00 | $30.00 |
출처: MiniMax, VentureBeat 가격 비교표, 2026.03.18
구독 플랜을 택하면 요청 수 기반으로 과금됩니다. 스탠다드 Starter는 월 $10에 5시간당 1,500 요청, Plus는 월 $20에 4,500 요청, Max는 월 $50에 15,000 요청입니다. 고속 처리(Highspeed) 플랜은 동일 요청 수에 약 2배 가격입니다. 텍스트·음성·영상·이미지·음악 모두 하나의 쿼터를 공유합니다 (출처: VentureBeat, MiniMax 구독 플랜 인용, 2026.03.18). 영상·음악 생성 API를 자주 쓴다면 토큰이 빠르게 소진될 수 있으니 사용 패턴을 먼저 파악해야 합니다.
Claude Code, Cursor, Kilo Code 등 11개 이상의 주요 코딩 도구에서 M2.7을 공식 지원합니다. Anthropic SDK 사용자는 ANTHROPIC_BASE_URL을 MiniMax 엔드포인트로 바꾸기만 하면 바로 연동됩니다 (출처: MiniMax 공식 API 문서, 2026.03.18). 기존 Claude 워크플로를 그대로 두고 모델만 교체해 비용을 비교해볼 수 있습니다.
Q&A
마치며
솔직히 말하면, M2.7이 처음 발표됐을 때 “또 중국 AI 스타트업의 과장 발표겠지”라는 생각이 먼저 들었습니다. 그런데 Kilo Code 팀의 실측 데이터를 보고 나서는 달랐습니다. 버그 검출 동률, 가격은 7%. 이 두 숫자는 단순한 벤치마크 숫자가 아니라 실제 작업 환경에서 측정된 결과입니다.
물론 M2.7이 만능은 아닙니다. 통합 테스트 커버리지, 보안 수정의 완성도, 타임아웃 리스크, 그리고 중국 서버 데이터 처리 문제는 도입 전에 팀마다 따로 검토해야 합니다. “저렴하니까 일단 쓴다”가 아니라, 내 작업 흐름에 맞는 모델인지를 먼저 확인하는 게 맞습니다.
그래도 한 가지는 분명합니다. 2026년 3월 현재, AI 모델 가격과 품질의 비례 관계는 더 이상 당연하지 않습니다. M2.7은 그 증거 중 하나입니다.
본 포스팅 참고 자료
- MiniMax 공식 블로그 — MiniMax M2.7 발표 원문 https://www.minimax.io/news/minimax-m27-en
- VentureBeat — MiniMax M2.7 분석 (2026.03.18) venturebeat.com
- Kilo Code 블로그 — M2.7 vs Claude Opus 4.6 실전 비교 (2026.03.22) blog.kilo.ai
- Reddit r/LocalLLaMA — Kilo Bench + PinchBench 결과 (2026.03.19) reddit.com
- MiniMax API 공식 플랫폼 — 가격 및 구독 플랜 platform.minimax.io
본 포스팅은 2026년 3월 24일 기준 공개 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. API 가격 및 요금제는 MiniMax 공식 플랫폼에서 최신 정보를 확인하시기 바랍니다. 본 포스팅은 MiniMax와 어떠한 광고·제휴 관계도 없습니다.









댓글 남기기