MiniMax M2.7 / Token Plan 기준
MiniMax M2.7, 싸다는 말이
틀린 조건 있습니다
입력 토큰 기준 Claude Opus 4.6보다 약 17배 저렴합니다. 그런데 실제 에이전트 작업에서 M2.7은 경쟁 모델보다 토큰을 3.9배 더 소비하는 경향이 독립 벤치마크에서 관측됐습니다. 가격표 숫자와 실사용 청구액이 달라지는 구체적인 조건을 공식 수치로 직접 확인했습니다.
“자기진화” 모델이라는 게 실제로 어떤 의미인가
MiniMax M2.7은 2026년 3월 18일 공개됐습니다. 공식 발표 제목이 “Early Echoes of Self-Evolution”인데, 마케팅 문구가 아니라 개발 과정 자체를 설명하는 말입니다. MiniMax는 M2.7의 이전 내부 버전을 에이전트 하네스로 동작시켜, 그 모델이 스스로 강화학습 실험 파이프라인을 구축하고 수정하게 했습니다. 연구원이 아이디어를 제시하면 에이전트가 문헌 조사, 실험 설계, 코드 수정, 검증, 머지 요청까지 처리했고, 연구원은 최종 판단만 했습니다. (출처: MiniMax 공식 발표, minimax.io/news/minimax-m27-en, 2026.03.18)
이 과정에서 M2.7은 자체 스캐폴드 코드를 100회 이상 반복 수정하며, 온도·빈도 페널티 같은 샘플링 파라미터의 최적 조합을 자동 탐색했습니다. 내부 평가 세트 기준으로 프로그래밍 성능이 30% 향상됐습니다. 그리고 이 과정에서 M2.7이 맡은 워크플로우 비중이 30~50%였습니다. 즉, 이 모델은 인간 연구원 절반 분량의 일을 해내며 스스로를 만든 모델입니다.
💡 공식 발표문과 실제 개발 워크플로우를 같이 놓고 보면 이런 차이가 보입니다 — 기존 모델들이 “훈련된 결과물”이라면, M2.7은 “훈련 과정의 참여자”입니다. 모델이 자신의 실패 궤적을 분석해 다음 버전에 반영하는 루프가 실제로 존재한다는 점이 설계 단계의 근본적인 차이입니다.
다만 이 자기진화 루프는 아직 완전 자율이 아닙니다. MiniMax 엔지니어링 헤드 Skyler Miao는 “의도적으로 모델이 요구사항을 사용자와 명확히 하도록 훈련했다. 다음 단계는 더 복잡한 사용자 시뮬레이터”라고 X에 밝혔습니다. 자기진화가 시작됐지만 아직은 “초기 단계”라는 게 MiniMax 자신의 표현입니다.
벤치마크에서 Opus 4.6을 앞서는 항목이 있습니다
대부분의 리뷰가 “Opus 4.6에 근접했다”는 식으로 쓰지만, 특정 항목에서는 M2.7이 Opus 4.6을 명확히 앞섭니다. SWE-bench Verified에서 M2.7은 78%, Claude Opus 4.6은 55%입니다. 같은 소프트웨어 엔지니어링 벤치마크인데 점수 차가 23%p입니다. (출처: WaveSpeed AI 분석, wavespeed.ai, 2026.03.22) 이 수치는 실제 GitHub 이슈를 해결하는 테스트라서 합성 코드 생성과는 다릅니다.
| 벤치마크 | M2.7 | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-Pro | 56.22% | ~57% | 56.2% |
| SWE-bench Verified | 78% | 55% | — |
| VIBE-Pro (전체 프로젝트) | 55.6% | — | — |
| MLE-Bench Lite 메달률 | 66.6% | 75.7% | 71.2% |
| GDPval-AA (오피스 생산성) ELO | 1495 | 1위 (공개 미비) | — |
| 할루시네이션율 (AA-Omniscience Index) | 34% | 46% | — |
출처: MiniMax 공식 발표 (minimax.io/news/minimax-m27-en), VentureBeat (2026.03.18), WaveSpeed AI (2026.03.22)
할루시네이션율도 눈에 띕니다. M2.7은 34%로, Claude Sonnet 4.6의 46%, Gemini 3.1 Pro Preview의 50%보다 낮습니다. 자기수정 루프가 실제 오류율 감소에 영향을 줬을 가능성이 있습니다. MLE-Bench Lite에서는 Gemini 3.1과 동률(66.6%)이고 GPT-5.4(71.2%)에 근접합니다. 머신러닝 경쟁 22개를 단독 A30 GPU 1대로 24시간 동안 자율 반복한 결과입니다.
가격표보다 실제 청구액이 커질 수 있는 이유
💡 공식 API 가격과 실제 코딩 에이전트 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 토큰 단가가 싸도, 작업당 소비 토큰이 많으면 비용 구조가 달라집니다.
공식 API 가격은 입력 $0.30/1M 토큰, 출력 $1.20/1M 토큰입니다. 반면 Claude Opus 4.6은 입력 $5.00/1M, 출력 $25.00/1M입니다. 단가만 놓으면 M2.7이 입력 기준 약 17배, 출력 기준 약 21배 저렴합니다. (출처: MiniMax 공식 API 문서 platform.minimax.io, Anthropic pricing anthropic.com/pricing, 2026.03.18 기준)
| 모델 | 입력 (/1M) | 출력 (/1M) | 합산 |
|---|---|---|---|
| MiniMax M2.7 | $0.30 | $1.20 | $1.50 |
| Gemini 3 Flash | $0.50 | $3.00 | $3.50 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $6.00 |
| Claude Sonnet 4.5 | $3.00 | $15.00 | $18.00 |
| Claude Opus 4.6 | $5.00 | $25.00 | $30.00 |
출처: VentureBeat 가격 비교표 (2026.03.18), MiniMax API 문서 (platform.minimax.io)
그런데 Kilo Code팀이 89개 태스크 실전 테스트를 돌린 결과, M2.7은 경쟁 모델 Kimi K2.5에 비해 총 토큰 소비가 3.9배 많았습니다. Kimi K2.5의 입력 단가는 M2.7보다 1.5배 비쌉니다. 그런데 소비 토큰이 3.9배 많아지면, 실제 작업당 비용은 M2.7이 오히려 2배 이상 비싸질 수 있습니다. (출처: Reddit/LocalLLaMA, Kilo Code팀 벤치마크, r/LocalLLaMA, 2026.03.19)
M2.7의 특성 자체가 원인입니다. 이 모델은 코드를 쓰기 전에 주변 파일, 의존성, 콜 체인을 광범위하게 읽는 경향이 있습니다. 컨텍스트가 풍부해야 정확도가 올라가는 구조입니다. 복잡한 리팩터링이나 코드베이스 전체를 봐야 하는 작업에서는 이 방식이 효과적이지만, 빠르게 반복해야 하는 단순 태스크에서는 토큰 과소비로 이어집니다. Kilo 벤치마크에서 M2.7의 태스크당 평균 소요 시간이 355초로, 전작 M2.5보다 길었던 것도 같은 이유입니다.
한 가지 벤치마크에서만 전작보다 순위가 떨어집니다
BridgeMind의 BridgeBench는 자연어를 동작하는 코드로 바꾸는 능력, 즉 “바이브 코딩” 성능에 집중한 테스트입니다. 여기서 M2.5는 12위(전체 점수 92.3), M2.7은 19위(88.1)입니다. 전작보다 순위도 내려갔고 점수도 떨어졌습니다. (출처: BridgeMind X 포스트 @bridgemindai, 2026.03.18)
💡 MiniMax가 공식적으로 이 하락에 대한 별도 이유를 밝히지 않았습니다. 그러나 두 벤치마크의 평가 방식이 다릅니다. BridgeBench는 빠른 프롬프트→코드 변환 속도를 중시하는 반면, SWE-bench는 실제 코드베이스 내 이슈 해결력을 봅니다. M2.7이 깊은 컨텍스트 이해에 최적화되는 대신 즉흥적 코드 생성 속도를 일부 포기한 트레이드오프로 볼 수 있습니다.
추가로 독립 테스트인 PinchBench(OpenClaw 에이전트 표준 태스크 기반)에서는 86.2%로 5위를 기록했습니다. GLM-5(86.4%), GPT-5.4(86.4%)와는 0.2%p 차이입니다. 그리고 전작 M2.5(82.5%)에 비해 3.7%p 상승했습니다. (출처: Reddit r/LocalLLaMA, Kilo Code팀 PinchBench 결과, 2026.03.19) 어떤 벤치마크를 보느냐에 따라 결론이 달라지는 모델입니다. 바이브 코딩 용도로 쓴다면 이 부분을 먼저 직접 확인해보는 게 맞습니다.
주간 한도 정책이 3월 23일부터 바뀌었습니다
Token Plan 구독자에게 주간 사용 한도(Weekly Rate Limit)가 2026년 3월 23일부터 적용됩니다. 단, 3월 23일 이전에 구독을 구매한 사용자는 이 한도에서 제외됩니다. 이 정책이 Reddit에서 주목을 받은 건 “구매를 유도한 후 제한을 거는” 패턴과 유사하다는 우려 때문입니다. 실제로 3월 20일 Reddit 스레드에서 사용자들이 직접 이 구조에 대한 우려를 공유했습니다.
Token Plan 월간 요금 구조는 다음과 같습니다 (출처: MiniMax 공식 플랫폼 platform.minimax.io, 2026.03.18 기준).
| 플랜 | 월 요금 | 5시간당 요청 수 |
|---|---|---|
| Starter | $10 | 1,500 |
| Plus | $20 | 4,500 |
| Max | $50 | 15,000 |
| Plus-Highspeed | $40 | 4,500 |
| Ultra-High-Speed | $150 | 30,000 |
출처: MiniMax Token Plan 공식 페이지 (platform.minimax.io/subscribe/token-plan)
그나마 주간 한도에 걸리더라도 API 종량제로 전환하면 M2.7은 입력 $0.30/1M, 출력 $1.20/1M입니다. Claude API(입력 $5.00)와 비교하면 단가 차이가 충분해서, 한도 초과 후 종량제 전환도 경제적으로 유지됩니다. 실사용자들 사이에서도 “주간 한도 걱정보다 API 종량제 대안이 현실적”이라는 의견이 많습니다. 다만 이 가격 구조가 언제 바뀔지는 MiniMax가 공개적으로 밝힌 부분이 없습니다.
어떤 작업에 쓰면 확실히 유리한가
Claude Code, Cursor, Cline, Roo Code, Kilo Code, Grok CLI, Codex CLI 등 11개 이상의 주요 개발 도구와 공식 연동이 지원됩니다. 특히 Claude Code에서 Anthropic SDK의 ANTHROPIC_BASE_URL을 MiniMax 엔드포인트로 교체하면 바로 M2.7을 쓸 수 있습니다. 세팅 변경 이외의 추가 설정은 필요 없습니다. (출처: MiniMax 공식 API 문서, platform.minimax.io/docs/token-plan/quickstart)
✅ M2.7이 유리한 작업
- 대규모 코드베이스 리팩터링 — 컨텍스트 전체를 읽는 방식이 강점
- 운영 환경 버그 디버깅 — 공식 발표에서 장애 복구 시간 3분 이내 사례 제시
- Excel/PPT/Word 복합 편집 — GDPval-AA 오픈소스 최고 ELO 1495
- 에이전트 팀 구성 — 멀티에이전트 협업을 네이티브 기능으로 지원
- 고속 처리 필요 작업 — 100 TPS로 Claude Opus 4.6(33 TPS)의 3배
⚠️ 다른 모델이 나을 수 있는 경우
- 빠른 반복이 필요한 단순 태스크 — 토큰 과소비로 실제 비용이 역전될 수 있음
- 한국어 비중이 높은 창작·비주얼 프로젝트 — 실사용자 후기에서 영어 외 언어 약점 언급
- 데이터 주권/온프레미스 필수 환경 — M2.7은 현재 클라우드 API 전용, 로컬 호스팅 미지원
- 1M 토큰 이상 긴 컨텍스트 — Claude Opus 4.6(1M 토큰)에 비해 205K로 제한됨
솔직히 말하면, M2.7은 “모든 상황에서 Opus를 대체하는 모델”이 아닙니다. 특정 상황에서 Opus보다 뛰어나고 가격은 훨씬 낮은 모델입니다. 쓰는 작업 유형을 먼저 정하고, 해당 작업에서 M2.7의 벤치마크를 확인한 다음 선택하는 게 맞는 순서입니다.
Q&A
Q1. MiniMax M2.7은 오픈소스인가요, 클로즈드인가요?
현재(2026.03.22 기준)는 클로즈드 API 전용 모델입니다. MiniMax 공식 발표에서 “오픈소스 모델 중 GDPval-AA ELO 최고”라는 표현을 써서 혼동이 있는데, 이는 비교 대상 기준이지 M2.7 자체가 오픈소스라는 의미가 아닙니다. M2.5는 출시 약 1주일 후 HuggingFace에 가중치가 올라왔기 때문에, M2.7도 유사한 일정을 기대하는 의견이 있지만 MiniMax가 공식 확정을 내놓지 않은 상태입니다.
Q2. Claude Code에서 M2.7으로 전환하면 어떻게 설정하나요?
Anthropic SDK 기반 도구(Claude Code, Cline 등)에서 환경변수 ANTHROPIC_BASE_URL을 MiniMax 엔드포인트 URL로 교체하면 됩니다. 이미지 이해 기능은 VLM API 엔드포인트를 통해 자동 구성되며, 별도 설정 없이 작동합니다. 공식 퀵스타트 문서는 platform.minimax.io/docs/token-plan/quickstart에 있습니다.
Q3. M2.7과 M2.7-highspeed의 차이는 무엇인가요?
MiniMax 공식 문서에 따르면 두 변형은 결과 품질이 동일하고, 처리 속도에서만 차이가 납니다. M2.7-highspeed는 지연시간에 민감한 프로덕션 환경을 위한 변형입니다. 단, highspeed 버전은 Token Plan에서 Plus-Highspeed($40/월) 이상 플랜에서 접근 가능합니다.
Q4. “자기진화”라는 표현이 실제 프로덕션 사용에서 어떤 의미를 갖나요?
현 단계의 자기진화는 “모델이 훈련 과정에 참여했다”는 의미입니다. 사용자가 쓰는 중에 실시간으로 자기 개선이 일어나는 구조는 아닙니다. 실용적으로 보면, 이 특성이 실제 프로덕션 환경 디버깅에서 모델이 시스템 전체 맥락을 파악하는 능력으로 이어졌고, 이것이 SWE-bench Verified 78% 같은 수치로 나타났습니다.
Q5. 한국어 사용자 입장에서 주의해야 할 점이 있나요?
실사용자 피드백에서 “영어 외 언어 처리가 경쟁 모델보다 약하다”는 의견이 반복적으로 등장합니다. 특히 창작·비주얼 프로젝트에서 한계가 두드러진다는 후기가 있습니다. 또한 중국어·러시아어 문자가 간헐적으로 출력에 섞이는 현상도 보고됩니다. 코딩·분석 중심 작업은 영어 프롬프트를 쓰는 게 안전합니다.
마치며 — 총평
MiniMax M2.7은 가격 대비 성능 측면에서 지금 시장에서 가장 공격적인 모델 중 하나입니다. 입력 기준 $0.30/1M 토큰이라는 숫자 자체는 사실이고, SWE-bench Verified 78%라는 수치도 공식 벤치마크 결과입니다.
그런데 토큰 단가가 싸다고 실제 비용도 싸다는 보장은 없습니다. M2.7은 작업당 소비 토큰이 많은 모델이고, 이 특성이 특정 작업에서는 강점이지만 빠른 반복 작업에서는 약점이 됩니다. 이 부분을 사용 전에 확인해두는 게 맞습니다.
자기진화 루프와 에이전트 하네스 설계는 분명히 흥미로운 방향입니다. 모델이 자신의 실패를 분석해 다음 버전에 반영하는 구조는 기존 정적 훈련 방식과 근본적으로 다릅니다. 앞으로 MiniMax가 이 루프를 얼마나 확장할 수 있느냐에 따라 다음 버전의 성격이 달라질 것 같습니다.
📚 본 포스팅 참고 자료
- ① MiniMax 공식 M2.7 발표 — minimax.io/news/minimax-m27-en (2026.03.18)
- ② MiniMax 공식 모델 페이지 — minimax.io/models/text/m27
- ③ MiniMax API 공식 문서 (토큰 플랜·가격) — platform.minimax.io
- ④ VentureBeat — New MiniMax M2.7 proprietary AI model — venturebeat.com (2026.03.18)
- ⑤ Kilo Code팀 PinchBench + Kilo Bench 독립 벤치마크 — blog.kilo.ai (2026.03.19)
- ⑥ BridgeMind BridgeBench 결과 — x.com/@bridgemindai (2026.03.18)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 모든 수치는 2026년 3월 22일 기준이며, MiniMax API 가격·Token Plan 요금제·주간 한도 정책은 MiniMax 공식 플랫폼(platform.minimax.io)에서 최신 정보를 직접 확인하시기 바랍니다. 본 포스팅은 특정 서비스 유료 이용을 권장하거나 투자를 권유하지 않습니다.


댓글 남기기