Cursor Composer 2 / Kimi K2.5 기반
Cursor Composer 2, 정말 자체 모델일까요?
Claude Opus 4.6을 이겼다는 발표, 그 벤치마크 뒤에 숨겨진 조건을 공식 자료로 확인했습니다.
Composer 2 발표, 뭐가 핵심이었나
Cursor가 2026년 3월 19일, 자사의 새 코딩 모델 Composer 2를 공식 출시했습니다. 발표 당시 Cursor 측이 내세운 핵심 문구는 “프런티어급 코딩 지능(frontier-level coding intelligence)”이었고, Terminal-Bench 2.0에서 61.7%를 기록해 Claude Opus 4.6(58.0%)을 앞섰다고 밝혔습니다. (출처: Cursor 공식 블로그, 2026.03.19)
가격 구조도 단숨에 눈길을 끌었습니다. Composer 2 Standard가 입력 토큰 100만 개당 $0.50, 출력 토큰 100만 개당 $2.50으로 책정됐는데, 전작 Composer 1.5의 $3.50/$17.50 대비 약 86% 저렴합니다. 이 수치는 Cursor 공식 changelog(2026.03.19)에 직접 게시된 것입니다.
자체 사전학습(continued pretraining)을 처음 진행했고, 그 위에 강화학습(RL)을 쌓아 수백 번의 액션이 필요한 장기 코딩 작업을 처리할 수 있다고 강조했습니다. “세 번째 에이전트 시대”라는 이름으로 Cursor가 추구하는 방향, 즉 동기식 프롬프트-응답이 아닌 클라우드에서 자율적으로 돌아가는 에이전트 코딩의 핵심 모델로 포지셔닝한 셈입니다. (출처: Cursor 블로그 “AI 소프트웨어 개발의 세 번째 시대”, 2026.02.26)
Kimi K2.5 기반이라는 사실이 왜 문제가 됐나
발표 직후 X(구 트위터)에서 Fynn이라는 개발자가 API 프록시 로그를 분석해 Composer 2의 모델 ID가 Kimi임을 밝혀냈습니다. Moonshot AI(알리바바·HongShan 투자)가 2026년 1월 공개한 오픈소스 모델 Kimi K2.5가 베이스라는 사실이 드러난 것입니다. (출처: TechCrunch, 2026.03.22)
💡 공식 발표문과 실제 API 응답 데이터를 같이 놓고 보니 이런 차이가 보였습니다.
Cursor는 초기 블로그에서 Kimi를 단 한 번도 언급하지 않았고, 논란이 터진 후 VP Lee Robinson이 “오픈소스 베이스에서 시작한 것은 맞다”고 인정했습니다. 공동창업자 Aman Sanger는 “처음부터 언급했어야 했다”고 공개적으로 시인했습니다.
라이선스 위반이냐는 문제는 별개입니다. Kimi K2.5는 수정 MIT 라이선스로 배포됐고, Cursor는 Fireworks AI를 통한 상업적 파트너십을 이유로 합법적 사용이라고 밝혔습니다. Kimi 공식 계정도 X에서 “승인된 상업 파트너십의 일환”이라며 Cursor를 축하했습니다. 라이선스 위반은 아니지만, “$29.3억 달러 밸류에이션 + $23억 달러 투자를 받은 회사가 중국 오픈소스를 기반으로 했다”는 사실이 알려지지 않은 채 ‘자체 모델’처럼 마케팅됐다는 점이 커뮤니티의 핵심 비판이었습니다.
벤치마크 수치, 직접 따져봤습니다
Cursor가 공개한 벤치마크 표는 이렇습니다.
| 모델 | CursorBench | Terminal-Bench 2.0 | SWE-bench Multilingual |
|---|---|---|---|
| Composer 2 | 61.3 | 61.7 | 73.7 |
| Composer 1.5 | 44.2 | 47.9 | 65.9 |
| Claude Opus 4.6 | 58.2 | 58.0 | — |
| GPT-5.4 | 63.9 | 75.1 | — |
출처: Cursor 공식 블로그 (2026.03.19) / Terminal-Bench 2.0은 Laude Institute 관리 벤치마크
여기서 그냥 넘기면 안 되는 부분이 있습니다. CursorBench는 Cursor가 자사 내부 코드베이스로 직접 만든 벤치마크입니다. 공식 문서에도 “Cursor 엔지니어링 팀의 실제 세션을 기반으로 구축”이라고 적혀 있습니다. (출처: Cursor 블로그 “CursorBench”, 2026.03.) 자기 평가 도구로 자기 모델을 측정한 셈입니다. 제3자 독립 검증 결과는 이 글 작성 시점(2026.03.29)까지 공개되지 않았습니다.
Terminal-Bench 2.0은 Laude Institute가 운영하는 외부 벤치마크라 상대적으로 신뢰도가 높습니다. 그런데 거기서 GPT-5.4는 75.1%로 Composer 2(61.7%)보다 13.4포인트 높습니다. “Claude Opus 4.6을 이겼다”는 말은 맞지만, 현시점 코딩 벤치마크 최상위권과는 여전히 격차가 있습니다.
Cursor 전용 모델이라는 것, 이렇게 불리합니다
Composer 2의 가장 큰 실용적 한계는 Cursor 밖에서는 쓸 수 없다는 겁니다. API로 직접 호출하거나, CI/CD 파이프라인에 붙이거나, 터미널에서 독립적으로 실행하는 것이 모두 불가능합니다. 공식 문서에 “Cursor의 에이전트 워크플로에 맞게 튜닝된 모델”이라고 명시돼 있습니다. (출처: Cursor model docs, 2026.03.19)
💡 “좋은 모델”과 “내 환경에서 쓸 수 있는 모델”은 다른 문제입니다.
Claude Opus 4.6은 API, claude.ai, Claude Code, 그리고 Cursor 안에서도 선택 가능합니다. Composer 2는 그 선택지가 Cursor 하나뿐입니다. 한 환경에 종속된다는 게 개인 개발자에게는 가볍지만, 여러 도구를 운영하는 팀에게는 무겁게 느껴집니다.
Cursor 공동창업자 Aman Sanger도 이를 인정하며 “코드 작업 이외의 일은 하지 않는다”고 직접 밝혔습니다. 세금 정산 도움도, 글쓰기도 안 됩니다. 코딩 이외의 작업이 일과에서 20%만 차지해도 그 20%는 별도 모델이 필요하다는 얘기입니다. 이 부분은 Claude나 GPT-5.4가 훨씬 넓은 카드를 쥐고 있는 지점입니다.
Claude Opus 4.6과 비교하면 어디서 갈리나
병렬 에이전트 실행: Composer 2의 구조적 강점
Cursor 2.0의 멀티 에이전트 워크스페이스는 동시에 최대 8개 에이전트를 격리된 git worktree에서 병렬 실행할 수 있습니다. 한 개발자가 같은 기능을 구현하는 5~8개의 병렬 실험을 동시에 돌리고, 결과를 비교해 최선을 고를 수 있습니다. Claude Code에는 현재 이 구조가 없습니다. (출처: NivaaLabs, Cursor 공식 문서, 2026.03.21)
컨텍스트 윈도우: Opus 4.6의 압도적 우위
Anthropic은 2026년 3월 16일 Opus 4.6의 컨텍스트 윈도우를 100만 토큰으로 확장했습니다. Composer 2의 20만 토큰보다 5배 넓습니다. Composer 2는 자체 요약(self-summarization) 기법으로 이를 보완하지만, 압축 과정에서 정보 손실이 발생합니다. 초대형 코드베이스를 통째로 컨텍스트에 넣어야 하는 작업이라면 Opus 4.6이 구조적으로 유리합니다.
Reddit 실사용 피드백: 빛과 그림자
커뮤니티 반응은 양극단입니다. “50% 감탄, 50% 답답함”이라는 표현이 나올 만큼 일관성이 갈립니다. 구체적으로는 코드 롤백 버그, CPU 100% 치솟는 충돌, Cursor Rules 설정 무시 문제가 포럼에서 반복적으로 보고되고 있습니다. Cursor 공식 포럼(forum.cursor.com)에서 3월 기준 해당 쓰레드가 활발하게 업데이트되고 있고, Cursor 측은 리소스를 확인 중이라고 답변했습니다.
가격이 싸다는 것, 실제로 어떤 의미인가
Composer 2의 가격 구조를 실제 사용량 기준으로 계산해 보겠습니다.
📊 직접 계산해볼 수 있는 비교
하루 200만 입력 토큰 + 100만 출력 토큰 사용 시 (Heavy User 기준, 약 추정):
- Composer 2 Standard: (2 × $0.50) + (1 × $2.50) = $3.50/일
- Claude Opus 4.6: (2 × $5.00) + (1 × $25.00) = $35.00/일
- → 동일 사용량 기준 10배 차이, 월로 환산하면 $105 vs $1,050
※ 토큰 사용량은 개인 워크플로에 따라 크게 다를 수 있습니다. 수치는 비율 비교 목적으로 산출한 추정치입니다.
이 10배 격차는 Cursor 입장에서도 전략적으로 중요합니다. 이전까지 Cursor는 Anthropic·OpenAI 모델을 빌려 쓰는 구조였고, 그 비용 부담이 고스란히 사업 마진에 영향을 줬습니다. Composer 2로 자체 모델을 갖게 되면, 구독 요금 안에 더 많은 사용량을 포함시키면서도 손익을 맞출 수 있습니다. 실제로 Cursor는 2026년 2월 기준 연 매출 $20억 달러를 돌파했다고 보고됩니다. (출처: TechCrunch, 2026.03.02)
단, 구독 요금제 안에서는 사용량이 넉넉한 별도 풀로 제공되기 때문에, 라이트 사용자라면 API 토큰 단가보다 월 $20 Pro 요금이 더 직관적인 비교 기준입니다. 쓰는 양이 많아질수록 토큰 단가 차이가 체감됩니다.
공식 발표문과 실제 사용 흐름을 같이 놓고 보니
Cursor의 공식 블로그 “세 번째 시대”는 현재 내부 PR의 35%가 클라우드 VM에서 자율적으로 동작하는 에이전트가 생성한 것이라고 밝혔습니다. 또 지난 1년간 에이전트 사용량이 15배 이상 증가했고, Tab 자동완성 사용자 대비 에이전트 사용자 비율이 1년 전 1:2.5에서 지금은 2:1로 역전됐다고 적혀 있습니다. (출처: Cursor 공식 블로그, 2026.02.26)
💡 그런데 수치를 반대로 읽으면 다른 그림이 나옵니다.
Composer 2는 “에이전트 중심 개발”의 기반 모델로 포지셔닝됐는데, 정작 에이전트 사용량이 폭발적으로 늘어난 건 Opus 4.6, Codex 5.3, Composer 1.5가 출시된 시점이라고 같은 블로그에 적혀 있습니다. 즉, 에이전트 전환을 이끈 건 Composer 2가 아니라 외부 모델들이었고, Composer 2는 그 흐름 위에 올라탄 후발 주자입니다. 이 맥락을 빼면 발표 수치가 마치 Composer 2의 공이 것처럼 읽힐 수 있습니다.
또 하나 놓치기 쉬운 점이 있습니다. CursorBench의 신뢰성 문제는 SWE-bench Verified의 문제와 맞닿아 있습니다. OpenAI가 SWE-bench Verified 결과 보고를 완전히 중단한 이유 중 하나는 “프런티어 모델이 정답 패치를 기억만으로 재현할 수 있고, 미해결 문제의 약 60%에 결함 있는 테스트가 존재한다”는 것이었습니다. (출처: Cursor 공식 블로그 “CursorBench”) Cursor가 자체 벤치마크를 만든 배경은 이런 공개 벤치마크의 한계를 넘기 위해서이지만, 동시에 자가 측정이라는 근본적 한계도 함께 안고 갑니다.
Q&A 5가지
Q1. Composer 2는 진짜 Claude Opus 4.6을 이겼나요?
Terminal-Bench 2.0(61.7% vs 58.0%)과 CursorBench(61.3% vs 58.2%)에서는 이겼습니다. 단, CursorBench는 Cursor 자체 평가 도구이고, Terminal-Bench 2.0에서는 GPT-5.4(75.1%)가 양쪽을 모두 앞섭니다. 코딩 특화 벤치마크에서 부분적으로 이긴 것이지, 전방위 우위가 아닙니다. (출처: Cursor 공식 블로그, VentureBeat, 2026.03.19)
Q2. Kimi K2.5 기반이면 라이선스 문제가 있나요?
Cursor는 Fireworks AI와의 상업적 파트너십을 통해 Kimi K2.5를 사용했고, Kimi 측도 이를 공식 확인했습니다. 라이선스 위반 사실은 공식적으로 밝혀지지 않았습니다. 커뮤니티 비판의 핵심은 법적 문제가 아니라, 초기 발표에서 이 사실을 밝히지 않은 투명성 문제였습니다. (출처: TechCrunch, 2026.03.22)
Q3. Composer 2를 Cursor 밖에서 쓸 수 있나요?
없습니다. Composer 2는 Cursor IDE 전용이며 외부 API로 호출하거나 다른 에디터에서 사용하는 것이 불가능합니다. CI/CD 파이프라인이나 터미널 독립 실행도 지원하지 않습니다. (출처: Cursor model docs, 2026.03.19)
Q4. Composer 2 Fast가 기본값인데, Standard와 어떻게 다른가요?
Cursor가 기본으로 제공하는 버전은 Composer 2 Fast($1.50/$7.50 per million tokens)로, Standard($0.50/$2.50)보다 3배 비싸지만 더 빠릅니다. 성능(지능)은 동일하다고 Cursor가 밝히고 있습니다. Standard 버전을 쓰려면 별도 설정이 필요합니다. (출처: Cursor 공식 changelog, 2026.03.19)
Q5. Cursor Pro $20 요금제 안에서 Composer 2는 얼마나 쓸 수 있나요?
Composer 사용량은 다른 모델과 별도의 넉넉한 풀로 제공된다고 Cursor가 공지했습니다. 구체적인 토큰 수 한도는 사용 패턴 및 플랜별로 달라지므로, cursor.com/pricing에서 최신 내용을 확인하는 것이 정확합니다. 헤비 유저의 경우 월 $40~50까지 올라간다는 실사용 보고가 커뮤니티에서 나오고 있습니다.
마치며
Composer 2는 분명 인상적인 릴리스입니다. 전작 대비 86% 저렴한 가격, Claude Opus 4.6을 앞선 Terminal-Bench 수치, 장기 에이전트 코딩을 위한 자체 요약 메커니즘. 막상 써보면 꽤 쓸만하다는 반응도 나옵니다.
다만 따지고 보면 조건이 있습니다. CursorBench는 자가 측정이고, GPT-5.4와는 여전히 격차가 있고, Cursor 밖에서는 아예 쓸 수가 없습니다. Kimi K2.5를 기반으로 했다는 사실을 처음부터 밝히지 않은 것도 솔직히 아쉬운 부분입니다.
결론적으로, 이미 Cursor가 주 개발 환경이고 순수 코딩 작업이 하루의 대부분이라면 Composer 2는 합리적인 선택입니다. 반면 터미널 중심 워크플로, 여러 도구를 넘나드는 환경, 또는 코딩 이외 작업도 AI에 자주 맡기는 경우라면 Claude Opus 4.6이나 GPT-5.4 쪽이 더 넓은 선택지를 줍니다. 두 가지를 동시에 Cursor Pro 하나로 쓰는 것도 현실적인 접근입니다.
📚 본 포스팅 참고 자료
- Cursor 공식 블로그 — Composer 2 출시 발표 (2026.03.19): cursor.com/blog/composer-2
- Cursor 공식 블로그 — AI 소프트웨어 개발의 세 번째 시대 (2026.02.26): cursor.com/ko/blog/third-era
- TechCrunch — Cursor admits its new coding model was built on top of Moonshot AI’s Kimi (2026.03.22): techcrunch.com
- Cursor 공식 Changelog (2026.03.19): cursor.com/ko/changelog
- Cursor 공식 블로그 — CursorBench 소개: cursor.com/ko/blog/cursorbench
- VentureBeat — Cursor’s new coding model Composer 2 is here (2026.03.): venturebeat.com
본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모든 수치는 2026년 3월 29일 기준 공개된 자료를 바탕으로 작성됐습니다. Cursor, Anthropic, OpenAI의 공식 채널에서 최신 정보를 직접 확인하세요.

댓글 남기기