Cursor Composer 2 기준
IT/AI
Cursor Composer 2, 직접 만든 모델이라고요? 코드가 다른 말을 했습니다
Cursor가 2026년 3월 19일 발표한 Composer 2는 공식 블로그에서 “최첨단 수준의 코딩 성능”을 내세웠습니다. 그런데 출시 다음 날, 한 개발자가 API 헤더에서 예상치 못한 모델 ID를 발견했습니다. kimi-k2p5-rl-0317-s515-fast. 444,000회 조회된 그 트윗이 흔들어놓은 것들을 공식 문서와 함께 정리했습니다.
Composer 2가 뭔지, 결론부터
Cursor Composer 2는 Cursor IDE 안에서만 동작하는 코딩 전용 AI 에이전트 모델입니다. 2026년 3월 19일 출시됐고, 이전 세대인 Composer 1.5보다 CursorBench 기준 39% 더 높은 점수를 기록했습니다 (출처: Cursor 공식 블로그, 2026.03.19). 공동창업자 Aman Sanger는 Bloomberg 인터뷰에서 “세금 신고도 못 하고 시도 못 쓴다”고 직접 말했습니다. 코드만 한다는 건데, 그게 강점인지 약점인지는 쓰는 방식에 달려 있습니다.
모델 계보는 2025년 10월 Composer 1 → 2026년 2월 Composer 1.5 → 2026년 3월 Composer 2 순서입니다. 각 세대의 핵심 변화를 한 줄로 정리하면 이렇습니다.
| 버전 | 출시일 | 핵심 변화 |
|---|---|---|
| Composer 1 | 2025.10.29 | 최초 자체 모델, MoE 구조 + RL 학습 |
| Composer 1.5 | 2026.02.09 | 동일 베이스에 RL 컴퓨트 20배 확대, 자기요약 도입 |
| Composer 2 | 2026.03.19 | 계속 사전학습으로 새 베이스 구축 + RL 4배 확장 |
Composer 1.5가 같은 베이스에 RL만 더 밀어 넣는 방식이었다면, Composer 2는 베이스 자체를 먼저 바꿨습니다. 그래서 벤치마크 점프가 이전 세대보다 큽니다.
벤치마크 수치 3개, 직접 봤습니다
Cursor는 세 가지 벤치마크로 성능을 발표했습니다. 숫자만 보면 인상적인데, 각 벤치마크가 실제로 무엇을 재는지 알아야 이 수치의 무게를 판단할 수 있습니다.
| 벤치마크 | Composer 1 | Composer 1.5 | Composer 2 |
|---|---|---|---|
| CursorBench | 38.0 | 44.2 | 61.3 |
| Terminal-Bench 2.0 | 40.0 | 47.9 | 61.7 |
| SWE-bench Multilingual | 56.9 | 65.9 | 73.7 |
(출처: Cursor 공식 블로그 composer-2, 2026.03.19)
💡 공식 발표문과 외부 분석을 같이 놓고 보니 이런 차이가 보였습니다. CursorBench는 Cursor가 직접 만든 내부 벤치마크입니다. 실제 Cursor 세션에서 커밋된 코드를 역추적해 문제를 구성하는 방식인데 (출처: Cursor 공식 블로그 cursorbench, 2026.03.11), 외부에서 재현이 불가능합니다. Terminal-Bench 2.0은 Laude Institute가 관리하는 공개 프레임워크라 비교적 투명하지만, 체스 문제처럼 실제 개발 환경과 거리가 있는 퍼즐 과제가 섞여 있습니다. SWE-bench Verified는 아예 보고하지 않았습니다. OpenAI가 최신 모델이 테스트 패치를 기억에서 재현할 수 있다는 이유로 평가를 중단한 이후 Cursor도 침묵하고 있는 부분입니다.
수치 자체는 Composer 세대 간 비교에서 의미가 있지만, 경쟁 모델과의 비교에서는 그대로 쓰기 어렵습니다. 각 점수가 어떤 조건에서 나왔는지 확인하지 않으면 숫자만 보고 오해하기 쉽습니다.
API 헤더가 밝힌 것 — Kimi K2.5 논란
⚠️ Cursor 공식 블로그에는 Composer 2의 베이스 모델에 대한 언급이 없었습니다. 이 정보는 출시 다음 날 외부에서 먼저 확인됐습니다.
2026년 3월 20일, Fynn이라는 개발자가 Cursor API를 디버깅하다가 응답 헤더에서 모델 ID를 발견했습니다. kimi-k2p5-rl-0317-s515-fast. 그 트윗은 444,000회 조회됐습니다. Cursor VP Lee Robinson은 당일 “맞다, 오픈소스 베이스에서 시작했다”고 인정했습니다 (출처: TechCrunch, 2026.03.22).
구체적인 내용을 정리하면 이렇습니다. Composer 2의 베이스는 알리바바와 HongShan이 투자한 중국 AI 기업 Moonshot AI의 오픈소스 모델 Kimi K2.5입니다. Cursor는 이 위에 계속 사전학습(continued pretraining)을 수행하고 RL을 4배 규모로 확장했습니다. Lee Robinson은 최종 모델 컴퓨트 기준으로 약 3/4이 Cursor 자체 학습에서 나온 것이라고 밝혔습니다 (출처: TechCrunch, 2026.03.22). 라이선스는 Fireworks AI를 통한 공식 상업 파트너십으로, 위반이 아니라는 점은 Moonshot AI와 Fireworks AI 양쪽이 공식 확인했습니다.
💡 CursorBench에서 Kimi K2.5는 비교 대상에 없었습니다. 그런데 베이스가 Kimi K2.5라면 이 비교 차트에서 빠진 이유가 보입니다. 커뮤니티에서는 “3배 컴퓨트를 썼는데 SWE-bench 기준으로 1% 개선에 그쳤다”는 지적도 나왔습니다 (출처: Reddit r/cursor, 2026.03.20). Cursor 공동창업자 Aman Sanger는 “처음부터 Kimi 베이스를 언급하지 않은 건 실수였다”고 인정했습니다 (출처: TechCrunch, 2026.03.22).
라이선스 문제가 없다고 해서 이 상황이 무색해지지는 않습니다. 기업 가치 293억 달러(약 40조 원)의 스타트업이 자체 모델이라고 포지셔닝하면서 베이스 출처를 공개하지 않았습니다. 이 부분은 쓰는 사람이 판단할 몫입니다.
요금 구조의 함정 — Fast가 기본값인 이유
Composer 2는 Standard와 Fast 두 가지 버전으로 제공됩니다. 지능은 동일하고 속도만 다릅니다. 그런데 기본값은 Fast입니다. 토큰 비용이 3배 더 비싼 버전이 기본값입니다.
| 버전 | 입력 (100만 토큰당) | 출력 (100만 토큰당) | 비고 |
|---|---|---|---|
| Composer 2 Standard | $0.50 | $2.50 | 배치·야간 작업 최적 |
| Composer 2 Fast ★기본 | $1.50 | $7.50 | 실시간 세션 최적 |
| Claude Opus 4.6 | $5.00 | $25.00 | Anthropic API 기준 |
| GPT-5.4 | $2.50 | $15.00 | OpenAI API 기준 |
(출처: Cursor 공식 changelog, 2026.03.19 / The Decoder, 2026.03.19)
💡 여기서 Pro 요금제 구조를 같이 보면 맥락이 달라집니다. Cursor Pro($20/월) 사용자에게는 Composer 모델 전용 사용 풀이 있고, 이 풀은 Claude·GPT 같은 서드파티 모델을 사용하는 일반 크레딧 풀과 별개로 운영됩니다 (출처: Cursor 공식 문서 models-and-pricing). Auto 모드에서 Composer 모델을 선택하면 크레딧이 차감되지 않고 이 별도 풀에서 소진됩니다. 즉, Composer 2를 많이 써도 GPT·Claude 크레딧은 그대로입니다. 이 구조를 모르면 Auto 모드를 끄고 직접 Claude를 선택해 크레딧을 낭비하게 됩니다.
장시간 배치 작업이나 야간 리팩터링에는 Standard를 쓰고, 실시간으로 코딩하면서 피드백이 필요한 세션에는 Fast를 유지하는 방식이 크레딧 효율에서 낫습니다. 기본값이 Fast라는 걸 인지하지 못하면 자연스럽게 더 비싼 토큰을 쓰게 됩니다. (출처: DataCamp Composer 2 가이드, 2026.03.19)
GPT-5.4·Claude Opus 4.6과 실제 비교
벤치마크에서 Composer 2는 Claude Opus 4.6을 CursorBench와 Terminal-Bench 2.0에서 앞섭니다. 그런데 GPT-5.4에는 Terminal-Bench 2.0 기준으로 13.4포인트 차이로 뒤집니다 (61.7 vs 75.1). 이 차이는 단순한 숫자가 아닙니다. Terminal-Bench 2.0 점수는 모델 단독 성능이 아니라 에이전트+모델 조합으로 측정하는데, Cursor는 Harbor 프레임워크를, GPT-5.4는 Simple Codex 하네스를 썼습니다. 다른 도구로 잰 수치를 같은 선에 놓은 셈입니다 (출처: DataCamp, 2026.03.19).
| 모델 | CursorBench | Terminal-Bench 2.0 | SWE-bench Verified |
|---|---|---|---|
| Composer 2 | 61.3 | 61.7 | 미보고 |
| Claude Opus 4.6 | 58.2 | 58.0 / 65.4* | 약 80.8% |
| GPT-5.4 Thinking | 63.9 | 75.1 | 약 80.0% |
*Claude Opus 4.6의 Terminal-Bench 58.0은 Claude Code 기준, 65.4는 Anthropic 최적화 수치 (출처: Anthropic 공개 문서). Composer 2는 Harbor 프레임워크, GPT-5.4는 Simple Codex 하네스 기준으로 수치 비교 조건이 다릅니다.
Composer 2의 가격 경쟁력은 명확합니다. Standard 기준으로 Claude Opus 4.6보다 입력 토큰 90% 저렴, GPT-5.4보다 80% 저렴합니다 (출처: DataCamp, 2026.03.19). 일상적인 IDE 작업에서 비용 대비 성능을 따지면 Composer 2가 앞서지만, 가장 어려운 코딩 과제에서는 GPT-5.4가 여전히 멀리 있습니다.
코드 전용이라는 제약, 실제로 어디서 막히나
Composer 2가 코드 전용이라는 건 마케팅 용어가 아닙니다. Aman Sanger가 Bloomberg에서 “코드 데이터로만 학습시켰다”고 밝혔고, 실제 비시 목적 사용에서 한계가 확인됩니다. 일반 질문, 문서 작성, 이메일 초안, 기술 설명 같은 작업에서는 같은 Cursor 내에 있는 Claude나 GPT를 써야 합니다.
💡 그런데 이 제약이 오히려 구조적으로 유리한 측면이 있습니다. 기존 블로그들이 말하지 않는 부분인데, Cursor가 Claude·GPT와 동시에 경쟁하면서도 이들 모델을 자사 플랫폼 안에 계속 제공해야 하는 딜레마에서, 코드 전용 자체 모델은 가장 덜 충돌하는 영역을 가져온 셈입니다. 2026년 개발자 설문에서 Claude Code가 가장 사랑받는 도구 1위(46%), Cursor는 19%로 2위지만, 두 도구를 함께 쓰는 개발자가 70% 이상입니다 (출처: DataCamp, 2026.03.19). Composer 2는 Claude Code를 대체하려는 것이 아니라 IDE 안에서 일상 코딩 비용을 줄이려는 포지션입니다.
실사용에서 확인된 제한 사항
커뮤니티에서 보고된 주요 문제들입니다. 공식 문서에서 별도 이유를 밝히지 않은 부분도 포함돼 있습니다.
- 단계 검증 건너뜀: 복잡한 다단계 실행 계획에서 중간 검증을 생략하고 구현으로 직행하는 경향이 보고됩니다. RL 학습에서 “완료”에 보상을 집중한 결과로 보입니다 (출처: DataCamp, 2026.03.19).
- macOS 대형 모노레포 문제: .gitignore를 무시하고 node_modules 같은 의존성 폴더를 인덱싱해 토큰을 과다 소비하는 사례가 보고됩니다. Cursor가 공식 답변을 내놓지 않은 부분입니다.
- Cursor IDE 전용: API를 통한 외부 접근은 이루어지지 않습니다. Cursor를 쓰지 않는다면 선택지 자체가 없습니다.
자주 나오는 질문 5가지
마치며 — 총평
Cursor Composer 2는 세 가지 면에서 볼 수 있습니다. 첫째, 성능 면에서 이전 세대보다 명확하게 나아졌습니다. CursorBench 39%, Terminal-Bench 29% 향상은 체감할 수 있는 수준입니다. 둘째, 가격 면에서 Claude Opus 4.6 대비 토큰 비용을 90% 낮춘 건 일상 IDE 작업에서 실질적인 차이를 만들어냅니다. 셋째, 출시 방식 면에서 베이스 모델을 공개하지 않았다가 외부 발각으로 인정하게 된 과정은 도구 신뢰와 무관하지 않습니다.
솔직히 말하면, 비용 효율을 따지는 개발자라면 Composer 2는 써볼 만합니다. 그 대신 Auto 모드 설정과 Standard/Fast 전환을 신경 써야 하고, 자체 제작 모델이라는 표현을 그대로 믿기 전에 베이스 출처가 무엇인지 물어보는 습관이 필요해졌습니다. 기업 가치 293억 달러 스타트업도 오픈소스 위에 서 있는 시대입니다.
본 포스팅 참고 자료
- Cursor 공식 블로그 — Composer 2 발표 (2026.03.19) cursor.com/blog/composer-2
- Cursor 공식 Changelog (2026.03.19) cursor.com/ko/changelog
- Cursor 공식 블로그 — CursorBench 소개 (2026.03.11) cursor.com/blog/cursorbench
- TechCrunch — Cursor, Kimi K2.5 기반 인정 (2026.03.22) techcrunch.com
- The Decoder — Composer 2 기술 분석 (2026.03.19) the-decoder.com
- DataCamp — Composer 2 벤치마크·요금 상세 분석 (2026.03.19) datacamp.com
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Cursor는 요금 구조와 모델 정책을 수시로 업데이트하는 편이므로, 중요한 의사결정 전에 공식 문서를 직접 확인하시기 바랍니다. 본 포스팅에 수록된 벤치마크 수치는 각 기관·기업이 발표한 시점(2026.03.19~22) 기준입니다.










댓글 남기기