MiniMax M2.7 / M2-시리즈
MiniMax M2.7, 싼데 이 수치가 납득이 안 됩니다
SWE-bench Verified에서 Claude Opus 4.6이 55%, MiniMax M2.7이 78%입니다. 그런데 가격은 입력 기준 17배 차이입니다. 직접 수치로 확인해봤습니다.
SWE-bench에서 역전이 일어난 이유
MiniMax M2.7은 2026년 3월 18일 공개됐습니다. 공식 발표에서 SWE-Pro 56.22%를 기록했다고 밝혔고, 이 숫자만 보면 Claude Opus 4.6의 약 57%와 비슷한 수준입니다. (출처: MiniMax 공식 발표, 2026.03.18) 그런데 막상 코딩 에이전트 실무에서 더 자주 인용되는 SWE-bench Verified 기준으로 넘어오면 숫자가 달라집니다.
SWE-bench Verified에서 M2.7은 78%, Claude Opus 4.6은 55%입니다. (출처: WaveSpeed AI 벤치마크 분석, 2026.03.21) 이건 단순 오차 범위가 아닙니다. 23%포인트 차이는 실제 엔지니어링 업무에서 처리할 수 있는 PR 범위 자체가 다르다는 뜻입니다. SWE-Pro가 격리된 패치 생성을 측정하는 반면, SWE-bench Verified는 실제 GitHub 이슈를 전체 저장소 맥락에서 해결하는 능력을 측정하기 때문에 이 격차가 더 도드라집니다.
그리고 활성 파라미터가 10B입니다. 공식 문서에서 별도로 전체 파라미터 수를 밝히지 않았지만, Tier-1 성능군에서 활성 파라미터 10B 수준은 현재까지 없었던 조합입니다. 크기가 성능을 보장한다는 상식이 이 모델에서 흔들립니다.
자기 진화란 실제로 무슨 뜻인가
MiniMax는 M2.7을 “자기 진화에 깊이 참여한 최초의 모델”이라고 소개합니다. 개발 과정에서 M2.7의 내부 버전이 자체 스캐폴드를 100회 이상 반복 최적화했고, 강화학습 실험 워크플로우의 30~50%를 직접 처리했습니다. (출처: MiniMax 공식 발표, 2026.03.18) 이 수치가 실제로 의미하는 건, 기존 모델처럼 사람이 모든 학습 루프를 설계하지 않았다는 겁니다.
💡 공식 발표문과 실제 학습 파이프라인 설명을 같이 놓고 보니 이런 차이가 보였습니다 — 자기 진화는 완전 자율이 아니라 “인간 연구원이 방향을 설정하고 모델이 실험을 실행”하는 반자율 구조입니다. 완전 무감독 학습과 혼동하면 기대치가 틀립니다.
OpenAI가 공개한 MLE-Bench Lite에서는 22개 머신러닝 대회에 투입해 세 번 실행했고, 최고 기록은 금메달 9개·은메달 5개·동메달 1개입니다. 세 번 평균 메달 획득률은 66.6%로, Gemini 3.1(66.6%)과 동률이며 Claude Opus 4.6의 75.7%, GPT-5.4의 71.2%에는 미치지 못합니다. (출처: MiniMax 공식 발표, 2026.03.18) 1위가 아니라는 사실이 오히려 이 수치의 신뢰도를 높입니다.
강화학습 실험에서는 내부 스캐폴드 최적화로 30%의 성능 향상을 끌어냈습니다. (출처: MiniMax 공식 발표, 2026.03.18) 이 30%는 단순 파라미터 튜닝이 아니라, 모델이 직접 실패 로그를 분석하고 sampling 파라미터 조합(temperature, frequency penalty, presence penalty)을 탐색한 결과입니다.
가격으로 계산한 실제 손익 분기
공식 가격표 기준으로 직접 계산했습니다. MiniMax 플랫폼에서 확인한 M2.7의 API 단가는 입력 $0.30/M 토큰, 출력 $1.20/M 토큰입니다. 캐시 읽기는 $0.06/M 토큰으로 내려갑니다. (출처: MiniMax API 공식 요금 페이지 platform.minimax.io/docs/guides/pricing-paygo, 2026.03.31 확인)
| 모델 | 입력 / 1M | 출력 / 1M | 캐시 읽기 / 1M |
|---|---|---|---|
| MiniMax M2.7 | $0.30 | $1.20 | $0.06 |
| MiniMax M2.7-highspeed | $0.60 | $2.40 | $0.06 |
| Claude Opus 4.6 (참고) | $5.00 | $25.00 | — |
※ Claude Opus 4.6 가격: Kilo Blog 실측 비교 기준 (2026.03.22), MiniMax는 공식 요금 페이지 기준
같은 작업을 Claude Opus 4.6으로 돌리면 $3.67, M2.7로 돌리면 $0.27이 나왔습니다. (출처: Kilo Blog 실측 비교, 2026.03.22) 이 차이는 단일 테스트가 아니라, TypeScript 풀스택 시스템 빌드 + 버그 추적 + 보안 감사 3가지를 합산한 금액입니다. 하루 100회 실행하는 에이전트 파이프라인 기준으로 환산하면 월 비용 차이가 최대 10배 이상 벌어집니다.
캐시를 적극 활용하면 실효 단가가 $0.06/M 토큰까지 내려갑니다. 반복적으로 동일한 시스템 프롬프트를 넣는 에이전트 하네스에서는 이 차이가 더 벌어집니다. 단, highspeed 버전은 입력 기준 $0.60으로 두 배라는 점을 감안해야 합니다.
실측 코딩 테스트 — 같은 버그, 다른 완성도
Kilo Code 팀이 TypeScript 코드베이스 3개로 두 모델을 동시 테스트했습니다. 버그 6개 탐지, 보안 취약점 10개 감사, 풀스택 시스템 빌드까지 총 세 가지 과제를 같은 프롬프트로 실행했습니다. (출처: Kilo Blog 실측 비교, 2026.03.22) 결과는 숫자만 보면 거의 비슷하지만, 내용은 다릅니다.
버그 6개는 두 모델 모두 전부 찾아냈습니다. 보안 취약점 10개도 동일하게 전부 감지하고 OWASP 분류까지 정확히 맞혔습니다. 여기까지만 보면 성능 차이가 없습니다. 그런데 부동소수점 버그 수정에서는 M2.7이 더 나은 접근을 택했습니다. Claude Opus 4.6은 계산 후 반올림했고, M2.7은 처음부터 센트(정수) 단위로 연산해 누적 오차 자체를 차단했습니다. 실무에서는 M2.7의 방식이 대규모 주문 처리 상황에서 더 안전합니다.
반면 롤백 로직은 빠졌습니다. 재고 예약 원자성은 구현했지만, 다중 아이템 주문에서 일부 실패 시 이미 예약된 재고를 되돌리는 로직을 작성하지 않았습니다. Claude Opus 4.6은 이 부분을 추가했습니다. 테스트 커버리지도 Claude Opus 4.6이 통합 테스트 41개를 작성한 데 비해 M2.7은 단위 테스트 20개에 그쳤습니다. 미들웨어 레이어 버그는 M2.7 테스트로 잡기 어렵습니다.
지시를 무시하는 패턴 — 실사용자 사례
💡 벤치마크와 실제 에이전트 파이프라인을 같이 살펴보니, 점수만으로는 보이지 않는 동작 패턴이 있었습니다.
OpenCode CLI 커뮤니티에서 실사용자 보고가 올라왔습니다. AGENTS.md에 “Expert”, “Single-Orchestrator” 에이전트 규칙을 정의해놓고 플러그인으로 주입했을 때 M2.7이 규칙을 완전히 무시했다는 내용입니다. 동일 환경에서 GLM-5-Turbo와 Kimi K2.5는 정상 작동했습니다. (출처: Reddit r/opencodeCLI, 2026.03.26)
MiniMax 공식 사용 팁 문서에서 그 이유가 간접적으로 보입니다. “M2.7은 명확하고 구체적인 지시에 잘 반응합니다. 목적까지 설명하면 더 정확한 답변이 나옵니다”라고 나와 있습니다. (출처: MiniMax API Docs — M2.7 Usage Tips, platform.minimax.io/docs/token-plan/best-practices) 즉, 프롬프트에 이유를 포함하지 않으면 규칙 준수율이 떨어지는 특성이 있습니다. 에이전트 하네스처럼 시스템 프롬프트를 분리해서 주입하는 구조에서는 이 특성이 문제로 번질 수 있습니다.
Qt/QML + Kirigami 스택 같은 특화 프레임워크에서는 문서 탐색 없이 존재하지 않는 컴포넌트를 생성하는 현상도 보고됐습니다. 훈련 데이터에 해당 생태계가 충분히 포함됐는지 MiniMax가 공식 답변을 내놓지 않은 부분입니다. 범용 코딩에서는 강하지만 비주류 프레임워크에서는 다릅니다.
어떤 상황에 쓰면 유리하고 어떤 상황엔 아닌가
오피스 문서 영역에서는 오픈소스 모델 중 GDPval-AA ELO 1495로 1위입니다. (출처: MiniMax 공식 발표, 2026.03.18) 45개 모델 중 Claude Sonnet 4.6, Opus 4.6, GPT-5.4에 이어 4위입니다. Excel 복잡 수식 생성, PPT 다중 편집, Word 고충실도 교정은 오픈소스 옵션 중 현재 가장 실용적인 수준입니다.
반면 “코딩 에이전트에서 완전한 프로덕션 대체”를 바라면 아직 이릅니다. 보안 취약점 탐지는 동급이지만, SHA-256을 JWT 시크릿으로 솔트 삼아 비밀번호를 해싱하는 코드를 직접 생성하고 “bcrypt가 낫다”고 스스로 주석을 달았습니다. 탐지와 수정 품질 사이에 간극이 있습니다. 프로덕션 보안 코드는 별도 검토가 필요합니다.
가장 유리한 시나리오는 고볼륨 에이전트 파이프라인입니다. 하루 수천 회 실행하는 문서 처리·코드 분석·데이터 파이프라인에서 Opus 대비 17배 저렴한 입력 비용은 ROI를 바꿉니다. 단, 시스템 프롬프트에 반드시 “왜”를 포함하고, 규칙 파일을 별도로 분리하는 구조보다는 인라인 지시 방식이 더 안정적으로 작동합니다.
Q&A 5가지
마치며
솔직히 말하면, M2.7은 벤치마크 숫자보다 가격 구조가 더 흥미롭습니다. SWE-bench Verified 78%는 현재 공개된 데이터 중 상당히 높은 수치이고, 거기에 Opus 대비 17배 저렴한 입력 단가가 붙으면 대규모 에이전트 파이프라인에서의 경제학이 달라집니다. “Claude면 되는데 왜 굳이?”라고 생각했다면, 이 가격 차이 앞에서 한 번 더 계산해볼 만합니다.
단, 에이전트 규칙 무시 패턴과 롤백 로직 부재, 보안 수정 완성도 차이는 프로덕션에서 조용히 터지는 유형의 문제입니다. “탐지는 잘하지만 완성도 있는 수정”을 원하면 아직 Claude Opus 4.6을 대체하기에는 한 발 남았습니다. 실험적인 파이프라인, 비용 최적화가 최우선인 환경, 오피스 문서 자동화에서는 지금 당장 대안으로 검토할 수 있는 수준입니다.
본 포스팅 참고 자료
- MiniMax 공식 M2.7 발표 — minimax.io/news/minimax-m27-en
- MiniMax API 공식 요금 페이지 — platform.minimax.io/docs/guides/pricing-paygo
- Kilo Blog 실측 비교 (Claude Opus 4.6 vs M2.7) — blog.kilo.ai
- WaveSpeed AI 벤치마크 분석 — wavespeed.ai
- MiniMax API Docs — M2.7 Usage Tips — platform.minimax.io/docs/token-plan/best-practices
본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 수치 및 기능은 2026.03.31 기준이며, 최신 정보는 MiniMax 공식 플랫폼에서 확인하세요.











댓글 남기기