Cursor Composer 2 / 출시 2026.03.19
Cursor Composer 2,
자체 모델이라는 말이 절반만 맞습니다
3월 19일, Cursor는 “자체 개발한 코딩 특화 AI 모델”이라며 Composer 2를 공개했습니다. 그런데 이틀 뒤 한 개발자가 API 요청 경로에서 kimi-k2p5-rl이라는 문자열을 발견했습니다. Kimi K2.5, 중국 Moonshot AI의 오픈소스 모델 기반이었던 겁니다.
‘자체 모델’ 발표가 사실이 아니었던 이유
Cursor Composer 2는 2026년 3월 19일 공개됐습니다. 공식 블로그는 “코딩 데이터로만 훈련한 자체 에이전트 모델”이라고 소개했고, 초기 반응은 열광적이었습니다. 팀 40명짜리 스타트업이 Claude Opus 4.6을 꺾는 모델을 직접 만들었다는 서사가 퍼졌습니다.
그런데 3월 21일, 개발자 @fynnso가 Cursor의 API 호출 경로를 분석하다가 kimi-k2p5-rl이라는 문자열을 발견했습니다. 중국 Moonshot AI가 개발한 오픈소스 모델 Kimi K2.5에 강화학습(RL)을 적용한 모델이 Composer 2의 베이스였다는 뜻입니다. (출처: @fynnso Twitter, 2026.03.21)
Cursor 측은 뒤늦게 해명했습니다. 공식 입장에 따르면 Composer 2 학습 컴퓨팅의 약 25%가 Kimi K2.5 가중치에서, 75%는 Cursor 자체 훈련에서 나왔고, Fireworks AI를 통한 상업적 라이선스 계약으로 사용 권한을 확보했다고 밝혔습니다. Kimi K2.5의 수정 MIT 라이선스에는 연 매출 2,000만 달러 이상인 기업이 파생 모델을 배포할 때 “Kimi K2.5 기반”이라고 표시해야 한다는 조항이 있는데, Cursor는 Fireworks를 통한 재라이선스 경로를 활용해 이 공시 의무를 비켜간 것으로 파악됩니다. (출처: reddit.com/r/LocalLLaMA, 2026.03.21)
💡 공식 발표문을 그대로 읽으면 놓치는 지점이 있습니다. Cursor는 “자체 개발”이라고 했지만, 실제 구조를 보면 Fireworks AI라는 중간 레이어를 통해 오픈소스 모델을 파인튜닝한 형태입니다. 이 구조 자체가 불법은 아니지만, 사용자 입장에서는 모델의 실체를 알 수 없었다는 점에서 논란이 생겼습니다.
Moonshot AI는 이후 “계약 관계가 있었다”는 취지의 공식 입장을 냈지만, 커뮤니티 일부에서는 이미 터진 뒤 사후 수습이라는 시각도 남아 있습니다. Cursor 공식 포럼에서도 “기술보다 투명성 문제가 더 걱정된다”는 스레드가 3월 22일 기준 상위권에 오른 상태입니다.
가격이 86% 저렴해졌지만, 기본값이 달라졌습니다
Composer 2의 가격 구조를 보면 전작 Composer 1.5 대비 극적인 변화가 있습니다.
| 모델 | 입력 토큰 (100만 개당) |
출력 토큰 (100만 개당) |
|---|---|---|
| Composer 1.5 (구) | $3.50 | $17.50 |
| Composer 2 Standard | $0.50 | $2.50 |
| Composer 2 Fast ⭐기본값 | $1.50 | $7.50 |
(출처: Cursor 공식 블로그 composer-2, VentureBeat 2026.03.19)
Standard 기준으로는 Composer 1.5 대비 입출력 모두 86% 저렴합니다. 여기까지는 홍보 내용과 일치합니다. 그런데 제품 내 기본값은 Standard가 아니라 Composer 2 Fast로 설정됩니다. Cursor 공식 문서는 “빠른 대화형 세션을 위한 기본 변형”이라고 명시했습니다. (출처: cursor.com/ko/docs/models/cursor-composer-2)
Fast 티어의 출력 토큰 단가는 100만 개당 $7.50으로, Composer 1.5의 $17.50보다는 저렴하지만 Standard의 3배입니다. 개인 Pro/Pro+ 플랜 사용자는 별도 Composer 사용량 풀이 적용돼 직접 과금되지 않지만, Teams·Enterprise 플랜은 위 API 가격이 직접 청구됩니다.
💡 “86% 저렴”이라는 수치는 Standard 티어 기준입니다. 아무 설정도 건드리지 않으면 Fast 티어로 요금이 쌓입니다. Teams 플랜에서는 이 차이를 무시하기 어렵습니다.
성능 수치를 그대로 믿으면 안 되는 이유
Composer 2의 벤치마크 점수는 분명히 올랐습니다. CursorBench 38.0 → 44.2 → 61.3, Terminal-Bench 2.0에서 40.0 → 47.9 → 61.7, SWE-bench Multilingual에서 56.9 → 65.9 → 73.7로 전 세대 대비 큰 폭의 상승입니다. (출처: cursor.com/ko/blog/composer-2)
그런데 이 중 핵심 수치인 CursorBench는 Cursor가 직접 설계하고 운영하는 자체 벤치마크입니다. 2026년 3월 11일 공개된 CursorBench 공식 포스팅을 보면, 이 벤치마크는 Cursor의 실제 작업 환경에서 모델이 얼마나 잘 동작하는지를 측정하도록 설계됐습니다. (출처: cursor.com/ko/blog/cursorbench)
Cursor 자신이 “모델을 훈련할 때 CursorBench 성능을 올리는 방향으로 최적화한다”고 공식 블로그에서 밝혔습니다. 즉, 시험 출제자와 수험생이 같은 팀이라는 구조입니다. 시험지를 보고 공부한 학생의 점수가 높은 건 당연합니다.
반면 제3자가 운영하는 Terminal-Bench 2.0 결과를 보면 그림이 달라집니다.
| 모델 | Terminal-Bench 2.0 |
|---|---|
| GPT-5.4 | 75.1 (1위) |
| Composer 2 | 61.7 |
| Claude Opus 4.6 | 58.0 |
| Claude Opus 4.5 | 52.1 |
(출처: Cursor 공식 발표 기준 / Laude Institute Terminal-Bench 2.0, 2026.03.19)
Terminal-Bench 2.0에서 Composer 2는 GPT-5.4에 13.4포인트 뒤집니다. Claude Opus 4.6에는 3.7포인트 앞섰습니다. “Opus 4.6를 꺾었다”는 말은 맞지만, 이 수치가 GPT-5.4 대비 우위를 의미하지는 않습니다.
Composer 2가 실제로 잘하는 것과 못 하는 것
Composer 2의 기술적 차별점은 크게 두 가지입니다. 첫째, self-summarization입니다. 장시간 실행되는 작업 중간에 모델이 스스로 진행 상황을 요약해 메모리를 효율적으로 관리합니다. 이 덕분에 200,000 토큰 컨텍스트 창을 갖추고도 수백 개의 연속 액션이 필요한 작업에서 성능 저하가 줄었습니다. (출처: cursor.com/ko/docs/models/cursor-composer-2)
둘째, Cursor 자체 도구 스택에 맞춘 에이전트 파인튜닝입니다. 시맨틱 코드 검색, 파일 읽기·수정, 셸 명령, 브라우저 제어, 웹 접근 등 Cursor 에이전트 도구 전체를 사용할 수 있도록 특화 훈련됐습니다. GPT-5.4나 Claude를 Cursor에서 쓸 때와 달리, Cursor의 내부 컨텍스트 파이프라인에서 불필요한 오버헤드 없이 동작하도록 최적화된 구조입니다.
💡 Cursor의 다른 AI 서비스들과 달리, Composer 2는 Cursor 외부에서 독립적으로 사용할 수 없습니다. 모델 자체보다 Cursor 생태계 안에서의 통합 경험이 경쟁력입니다.
못 하는 것도 분명합니다.
Reddit LocalLLaMA 커뮤니티에서는 “Composer 2 decent but not full time usable yet(그럭저럭 쓸 만하지만 아직 전일 사용은 무리)”이라는 평가가 나왔습니다. (출처: reddit.com/r/LocalLLaMA, 2026.03.21) Terminal-Bench 2.0에서 GPT-5.4에 13포인트 이상 뒤진다는 수치는, 실제 긴 터미널 작업에서 여전히 빠진 게 있다는 의미입니다. 또한 Composer 2는 Cursor 전용 모델이라 Cursor 밖에서는 쓸 수 없습니다. 팀의 코딩 환경이 Cursor로 통일되지 않은 상황에서는 이 모델의 장점을 살리기 어렵습니다.
공식 발표문과 실제 흐름을 같이 놓고 보면 보이는 것
공시를 어긴 건지 여부는 여전히 논쟁 중이지만, 이번 Composer 2 사태에서 확인되는 구조적 패턴이 있습니다. Cursor는 Fireworks AI라는 중간 인프라 제공자를 통해 Kimi K2.5를 라이선스하고 파인튜닝했습니다. Kimi의 수정 MIT 라이선스에 포함된 “연매출 2,000만 달러 이상 기업의 공시 의무” 조항은, 상업적 재라이선스를 거치면 적용 주체가 Fireworks로 바뀌는 구조가 됩니다. (출처: reddit.com/r/LocalLLaMA nullmove 댓글, 2026.03.21)
이 구조는 앞으로 AI 모델 시장에서 반복될 가능성이 높습니다. 오픈소스 가중치를 확보하고 → 제3자 인프라로 파인튜닝하고 → 자체 제품 브랜드로 배포하는 경로가 사실상 가능하다는 걸 Cursor가 증명한 셈입니다. 사용자 입장에서는 자신이 쓰는 AI 도구의 기반 모델이 무엇인지 앞으로도 알기 어려워질 수 있다는 뜻입니다.
또 하나의 맥락이 있습니다. VentureBeat의 보도에서 지적된 것처럼, Cursor는 $29.3B(약 43조 원) 가치로 평가된 스타트업이면서도 Claude Code나 OpenAI의 Codex 같은 퍼스트파티 코딩 에이전트와 경쟁해야 하는 압박을 받고 있습니다. (출처: VentureBeat, 2026.03.19) 모델 공급자들이 자체 코딩 도구를 직접 제공하기 시작했기 때문에, Cursor는 단순한 “모델 래퍼” 이상을 보여줘야 했습니다. Composer 2의 출시 메시지 — “우리가 직접 만든 모델” — 는 이 전략적 맥락 안에서 설계된 것입니다.
💡 Cursor의 진짜 경쟁력은 모델보다 에이전트 워크플로우 통합에 있습니다. 그런데 이번 발표는 그 워크플로우 이야기보다 “자체 모델”이라는 메시지에 집중했고, 그게 역으로 약점이 됐습니다.
자주 나오는 질문들
Cursor Composer 2, 지금 쓸 수 있나요?
2026년 3월 19일부터 Cursor 전 플랜에서 사용 가능합니다. 개인 Pro 플랜 기준 별도 Composer 사용량 풀이 적용됩니다. 제품 내 기본 모델로 설정돼 있어 별도 전환 없이 바로 사용됩니다.
Kimi K2.5 기반이면 보안 문제가 있지 않나요?
Cursor는 코드가 Cursor 서버를 거쳐 처리된다는 점을 공개하고 있습니다. Kimi K2.5 오픈소스 가중치 자체는 Cursor 인프라 위에서 파인튜닝·서빙되므로, Moonshot AI 서버로 코드가 전송되지는 않습니다. 다만 Cursor의 데이터 처리 방식은 기존과 동일한 개인정보처리방침이 적용됩니다. Enterprise 플랜은 별도 프라이버시 설정이 가능합니다.
Composer 2 Standard와 Fast 중 어떤 걸 써야 하나요?
개인 Pro/Pro+ 플랜은 사용량 풀 방식이라 단가 차이가 체감되지 않습니다. Teams·Enterprise 플랜에서 비용을 줄이려면 설정에서 Standard로 전환하면 됩니다. 출력 토큰 기준으로 Standard는 100만 개당 $2.50, Fast는 $7.50입니다.
CursorBench 61.3이면 실제로 어느 정도 수준인가요?
CursorBench는 Cursor가 직접 설계·운영하는 내부 벤치마크라 외부 비교에 한계가 있습니다. 제3자 벤치마크인 Terminal-Bench 2.0 기준으로는 61.7로, GPT-5.4(75.1)에 뒤지지만 Claude Opus 4.6(58.0)보다는 앞섭니다. SWE-bench Multilingual에서는 73.7로 다국어 코드 수정 능력이 괜찮습니다.
Cursor 대신 Claude Code로 갈아타는 게 나을까요?
Terminal-Bench 2.0 기준으로 Composer 2(61.7)가 Claude Opus 4.6(58.0)보다 앞서지만, Claude Code는 터미널 퍼스트 워크플로우와 대형 컨텍스트 처리에서 강점을 주장합니다. 에디터 중심으로 작업하고 Cursor의 GUI 에이전트 툴이 필요하면 Cursor, 터미널 중심의 장시간 에이전트 작업이 주라면 Claude Code가 유리할 수 있습니다. 두 툴 모두 빠르게 업데이트 중이라 현재 기준 수치입니다.
마치며
Composer 2는 실제로 성능이 올랐습니다. 전작 대비 CursorBench 38→61, Terminal-Bench 40→61.7, SWE-bench Multilingual 56.9→73.7이라는 수치는 훈련 방법론의 개선이 실재한다는 뜻입니다. 가격이 Standard 기준 86% 내렸다는 것도 사실입니다.
다만 이 세 가지가 중요합니다. 첫째, 핵심 벤치마크가 자체 설계라는 점. 둘째, 기본값이 Standard가 아닌 Fast라는 점. 셋째, “자체 개발”이라는 발표와 실제 베이스 모델 간의 간극이 뒤늦게 드러났다는 점.
솔직히 말하면, Cursor가 Kimi K2.5를 파인튜닝한 것 자체는 기술적으로 합리적인 선택입니다. 오픈소스 생태계를 이용하는 건 정상적인 방법입니다. 문제는 그걸 처음부터 밝히지 않았다는 점입니다. 사용자 입장에서 신뢰가 깎이는 지점은 기술이 아니라 그 간극입니다.
Cursor를 이미 쓰고 있다면 Composer 2로의 전환은 비용 부담 없이 성능이 올라가는 선택입니다. 새로 Cursor를 고려 중이라면, 모델 단독 성능보다 에이전트 워크플로우가 자신의 개발 환경과 맞는지를 먼저 따져보는 게 순서입니다.
본 포스팅 참고 자료
- Cursor 공식 블로그 — Composer 2를 소개합니다 (2026.03.19)
- Cursor 공식 문서 — Composer 2 모델 문서
- VentureBeat — Cursor’s new coding model Composer 2 is here (2026.03.19)
- Cursor 공식 블로그 — CursorBench 소개 (2026.03.11)
- Reddit LocalLLaMA — Moonshot says Cursor Composer was authorized (2026.03.21)
- Cursor 공식 포럼 — Composer 2 being KimiK2.5++ is fine, lack of transparency isn’t (2026.03.22)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 벤치마크 수치 및 가격은 2026년 3월 22일 기준이며, Cursor의 모델 업데이트에 따라 달라질 수 있습니다. 본 포스팅은 특정 서비스의 구매·사용을 권유하지 않습니다.


댓글 남기기