Cursor Composer 2 (2026.03.19 출시)
TECH
Cursor Composer 2, 숫자로 보면 달라집니다
CursorBench 61.3점, Terminal-Bench 61.7점. 수치만 보면 인상적입니다. 그런데 이 숫자가 나온 배경에 아무도 발표에서 언급하지 않은 모델이 있습니다. 바로 중국 Moonshot AI의 Kimi K2.5입니다. 공식 문서와 실제 API 로그를 함께 놓고 보니 보이는 것들이 있었습니다.
API 로그 한 줄이 2.6백만 뷰를 만든 방법
2026년 3월 19일, Cursor는 Composer 2를 공개하며 “프론티어급 코딩 지능”이라고 했습니다. 발표 자료에는 자체 벤치마크, Pareto 효율성 차트, 경쟁사보다 낮은 가격 전략이 담겨 있었습니다. 외부에서 볼 때 Cursor가 자체적으로 만든 코딩 특화 모델로 읽혔습니다.
그런데 발표 당일, 개발자 Fynn이 로컬 디버그 프록시 서버를 세팅해 Cursor의 API 트래픽을 가로챘습니다. 응답으로 돌아온 모델 ID는 이랬습니다.
accounts/anysphere/models/kimi-k2p5-rl-0317-s515-fast
Fynn의 한마디: “적어도 모델 ID는 바꾸지.” 이 트윗이 2.6백만 뷰를 찍었습니다. (출처: VentureBeat, 2026.03.19) 수치가 의미하는 건 하나입니다. 발표에서 단 한 번도 언급되지 않은 이름이 코드 안에 그대로 있었습니다.
Cursor의 전작 Composer 1.5는 이런 종류의 API 요청 가로채기를 차단했습니다. Composer 2는 그 방어가 없었고, Cursor는 뒤늦게 패치를 적용했지만 이미 사실이 공개된 뒤였습니다.
Cursor VP of Developer Education Lee Robinson은 몇 시간 안에 “네, Kimi 오픈소스를 기반으로 했습니다”라고 인정했습니다. 공동창업자 Aman Sanger도 “블로그에서 Kimi 기반을 언급하지 않은 건 실수였습니다. 다음 모델부터는 바로잡겠습니다”라고 밝혔습니다. (출처: Cursor 공동창업자 X 게시물, 2026.03.22)
Kimi K2.5가 뭐길래 — 수치로 보는 스펙
Kimi K2.5는 중국 Moonshot AI가 2026년 1월 공개한 오픈소스 모델입니다. Moonshot AI는 알리바바와 HongShan(舊 Sequoia China)의 투자를 받은 스타트업입니다. (출처: TechCrunch, 2026.01.27)
| 항목 | Kimi K2.5 | Meta Llama 4 Scout | gpt-oss-120b |
|---|---|---|---|
| 전체 파라미터 | 1조 (MoE) | 약 400B | 약 120B |
| 활성 파라미터 | 32B | 약 17B | 5.1B |
| 컨텍스트 윈도우 | 256,000 토큰 | 10M 토큰 | 약 128,000 토큰 |
| 라이선스 | 수정 MIT (상업 허용) | Llama 4 Community | Apache 2.0 |
활성 파라미터 32B는 gpt-oss-120b의 5.1B보다 6배 높습니다. 코딩 에이전트처럼 긴 컨텍스트를 동시에 유지해야 하는 작업에서 이 숫자 차이가 성능 차이로 직결됩니다. (출처: VentureBeat, 2026.03.19)
MathVista 벤치마크에서 출시 당시 전체 1위를 기록했고, Agent Swarm으로 최대 100개 서브에이전트를 동시에 실행할 수 있습니다. 상업적 사용을 허용하는 수정 MIT 라이선스로 공개된 것도 Cursor가 선택한 핵심 이유 중 하나입니다.
Cursor가 서양 오픈소스를 안 쓴 진짜 이유
💡 공식 발표문과 업계 상황을 함께 놓고 보니 Cursor가 중국 모델을 선택한 이유가 단순한 성능 때문만이 아니었습니다.
많은 사람이 “왜 미국 회사가 중국 모델을 썼냐”고 물었습니다. 그 답은 사실 서양 오픈소스 생태계의 현주소에 있습니다.
Meta의 Llama 4 Scout와 Maverick은 2025년 4월 출시됐지만 성능이 기대에 못 미쳤고, 2조 파라미터급 Llama 4 Behemoth는 2026년 3월 현재도 출시일이 공개되지 않았습니다. Meta 내부팀조차 성능 개선폭이 출시 명분에 충분하지 않다고 판단했다는 보도가 나온 상태입니다. (출처: VentureBeat, 2026.03.19)
Google의 Gemma 3 시리즈는 최대 27B 파라미터로, 엣지 배포에는 훌륭하지만 프론티어급 코딩 에이전트의 기반 모델로 쓰기엔 규모가 부족합니다. Gemma 4는 아직 발표되지 않았습니다.
OpenAI가 2025년 8월 공개한 gpt-oss-120b는 추론 능력이 뛰어나지만, MoE 구조에서 토큰당 활성 파라미터가 5.1B에 그칩니다. 범용 추론엔 효율적이지만, 256,000 토큰 컨텍스트를 유지해야 하는 코딩 에이전트 작업에서는 구조적으로 얇습니다. 게다가 이 모델은 고강도 강화학습(RL)을 반복하면 핵심 논리가 무너지는 “post-training brittleness” 문제가 개발자 커뮤니티에서 언급돼 왔습니다. (출처: VentureBeat, 2026.03.19)
💡 Cursor는 단순히 “좋은 모델”을 고른 게 아닙니다. 공격적인 추가 훈련을 버텨줄 내구성 있는 기반이 필요했고, 서양 오픈소스 생태계에 그 조건을 갖춘 선택지가 없었습니다.
결국 DeepSeek, Qwen, Kimi 등 중국 랩들이 이 공백을 채우고 있습니다. Cursor만의 문제가 아니라, 오픈소스 기반 AI 제품을 만드는 모든 회사가 직면한 구조적 현실입니다.
self-summarization, 숫자로 검증해봤습니다
Kimi 기반이라는 사실보다 Cursor가 실제로 무엇을 만들었는지가 더 중요합니다. 발표와 같이 공개된 기술 문서(cursor.com/blog/self-summarization)에는 이 모델의 핵심 기법인 self-summarization이 상세히 나와 있습니다.
self-summarization이 해결하는 문제
에이전트가 복잡한 코딩 작업을 진행하다 보면 컨텍스트가 폭발적으로 늘어납니다. 기존 방식은 두 가지였습니다. ① 오래된 컨텍스트를 날리는 슬라이딩 윈도우, ② 별도 요약 모델을 사이에 끼워 넣는 prompted summarization. 둘 다 핵심 정보를 잃어버리는 문제가 있었습니다.
Cursor의 접근법은 다릅니다. 요약 행동 자체를 강화학습(RL) 훈련에 포함시켜, 모델이 “어떤 정보를 남겨야 과제가 완성되는지”를 스스로 학습하게 합니다. (출처: cursor.com/blog/self-summarization)
직접 따라 계산할 수 있는 수치
| 방식 | 요약 프롬프트 크기 | 요약 출력 평균 | 압축 오류율 |
|---|---|---|---|
| 기존 prompted 방식 | 수천 토큰 (섹션 10여개) | 5,000 토큰 이상 | 기준치 |
| self-summarization | “대화를 요약해주세요” 수준 | 약 1,000 토큰 | 50% 감소 |
요약 출력이 5분의 1로 줄면서 오류도 절반으로 줄었습니다. KV 캐시(이전 토큰 계산 결과 저장)도 재활용해 처리 속도가 빨라집니다. (출처: cursor.com/blog/self-summarization)
실제 사례로는 Terminal-Bench 2.0의 “MIPS 아키텍처용 Doom 컴파일” 문제가 있습니다. 170번의 턴 동안 10만 토큰 이상을 반복적으로 1,000 토큰으로 압축하며 해결했습니다. 프론티어 모델 여러 개가 이 문제를 완성하지 못했습니다. 오류 50% 감소라는 숫자가 이 한 사례에서 얼마나 중요한지 실감이 됩니다.
라이선스는 괜찮은데, 진짜 문제는 따로 있습니다
이 사태를 “라이선스 위반이냐 아니냐”로만 보면 핵심을 놓칩니다. 결론부터 말씀드리면, 라이선스 위반은 아닙니다. Kimi AI 공식 계정은 X에서 “Cursor가 Fireworks AI를 통해 허가된 상업 파트너십의 일환으로 Kimi를 사용했다”고 직접 밝혔습니다. (출처: Kimi @Kimi_Moonshot, X, 2026.03.22)
💡 라이선스 적법성보다 “이 도구 안에 무엇이 들어 있는지”를 알 권리의 문제입니다. 특히 기업 고객에게는 공급망 출처가 규정 준수 문제로 연결됩니다.
그런데 기업 환경에서 AI 도구를 도입할 때는 다른 질문이 중요합니다. “이 도구의 기반 모델이 어느 나라, 어느 회사에서 나왔는지”가 컴플라이언스·보안 정책에 영향을 줄 수 있기 때문입니다. 미중 AI 기술 경쟁이 격화되는 지금, 알리바바·텐센트가 투자한 중국 스타트업의 모델이 미국 최대 코딩 도구 안에 조용히 들어가 있었다는 사실은 단순한 PR 실수로 넘기기 어렵습니다.
Cursor는 기업 가치 293억 달러(약 2.93조 달러), 연간 반복 매출(ARR) 20억 달러를 넘겼다고 보도된 스타트업입니다. (출처: TechCrunch, 2026.03.02 / TechCrunch, 2025.11.13) 이 규모의 회사가 기반 모델 출처를 발표에서 누락했다는 점은 앞으로 AI 제품 투명성 기준에 대한 업계 논의를 자극할 가능성이 높습니다.
Cursor가 한 것처럼, 사실 업계 전반이 이미 오픈소스 위에 쌓아 올린 모델을 자체 제품이라 부르고 있습니다. 누가 어떤 기반 위에 무엇을 만들었는지 밝히는 관행이 없다면, 이번처럼 API 로그 하나가 수백만 뷰를 만드는 일은 반복될 것입니다.
Composer 2 요금, 직접 계산해봤습니다
Cursor 공식 문서(cursor.com/blog/composer-2)에 나온 요금은 두 가지입니다.
| 플랜 | 입력 (1M 토큰) | 출력 (1M 토큰) | 특징 |
|---|---|---|---|
| Composer 2 기본 | $0.50 | $2.50 | 표준 속도 |
| Composer 2 Fast (기본값) | $1.50 | $7.50 | 현재 기본값, 동일 성능 |
개인 플랜에는 별도의 Composer 사용량 풀이 있어 일정량은 포함됩니다. 초과분부터 위 단가가 적용됩니다. (출처: cursor.com/docs/models-and-pricing)
Claude Opus 4.6과 비교하면 어떨까요. Terminal-Bench 2.0에서 Claude Opus 4.6은 58.0점, Composer 2는 61.7점입니다. 가격 차이는 공식 자료에서 “1/10 비용”이라고 표현됩니다. (출처: Reddit 스레드, 2026.03.21, Cursor 공식 블로그 벤치마크)
단, 벤치마크는 Cursor 자체 인프라에서 측정된 수치입니다. 같은 모델을 다른 환경에서 측정하면 달라질 수 있습니다. 공식 문서는 “속도는 프로바이더 용량과 개선에 따라 달라질 수 있다”고 명시하고 있습니다. (출처: cursor.com/blog/composer-2, 각주 2번)
자주 묻는 질문
Cursor Composer 2가 Kimi K2.5를 썼으면 라이선스 문제가 있나요?
라이선스 위반이 아닙니다. Kimi K2.5는 상업적 사용을 허용하는 수정 MIT 라이선스로 공개됐고, Cursor는 Fireworks AI를 통한 공식 상업 파트너십 하에 사용했습니다. Moonshot AI 공식 계정이 이를 직접 확인했습니다. 문제는 법적 위반이 아니라 공개 발표에서 기반 모델을 언급하지 않은 투명성 부분이었습니다.
Composer 2는 Kimi K2.5에 뭘 더 얹은 건가요?
Cursor가 밝힌 바에 따르면 총 훈련 컴퓨팅의 약 75%가 Cursor 자체 작업에 해당합니다. 기반 모델로 시작한 뒤 대규모 continued pretraining을 거쳤고, 이후 자체 강화학습(RL) 방식인 self-summarization을 훈련에 적용했습니다. 이 기법이 CursorBench 점수를 44.2에서 61.3으로 올리는 데 핵심 역할을 했습니다.
self-summarization이 일반 요약 방식과 다른 점이 뭔가요?
기존 prompted summarization은 수천 토큰짜리 상세한 지시 프롬프트를 써서 다른 모델에 요약을 맡기고, 그 결과물이 평균 5,000 토큰 이상입니다. self-summarization은 요약 행동 자체를 RL 훈련에 넣어, 모델이 “뭘 남겨야 최종 과제를 완성하는지” 학습합니다. 요약 프롬프트는 “요약해주세요” 수준으로 짧고, 출력은 약 1,000 토큰으로 줄어들면서 오류는 50% 감소합니다.
Cursor가 왜 서양 오픈소스 모델을 안 썼나요?
2026년 3월 현재 서양 오픈소스 생태계에서 Cursor 요구사항에 맞는 모델이 없었습니다. Meta Llama 4 Behemoth는 출시 일정조차 없고, Google Gemma 3는 최대 27B 파라미터로 규모 부족, OpenAI gpt-oss-120b는 토큰당 활성 파라미터 5.1B로 긴 컨텍스트 코딩 에이전트에 구조적으로 맞지 않습니다. 반면 Kimi K2.5는 활성 파라미터 32B에 상업 허용 라이선스까지 갖췄습니다.
앞으로 Cursor는 기반 모델을 공개할 건가요?
공동창업자 Aman Sanger가 직접 “다음 모델부터는 기반 모델을 명시하겠다”고 밝혔습니다. 이번 사태가 AI 도구 업계 전반의 투명성 논의에 불을 붙인 만큼, 관행이 바뀔 가능성이 있습니다. 다만 얼마나 구체적으로 공개할지는 아직 공식 답변이 나오지 않은 부분입니다.
마치며
이번 사태를 보면서 두 가지가 분명해졌습니다. 하나는 Cursor가 실제로 의미 있는 기술을 만들었다는 것입니다. self-summarization으로 컨텍스트 압축 오류 50%를 줄이고, CursorBench를 44.2에서 61.3으로 끌어올린 건 단순한 래핑이 아닙니다.
동시에 기반이 된 모델을 발표에서 빠뜨린 건 솔직히 아쉬웠습니다. 라이선스 문제가 없었더라도, 이 규모의 회사가 기반 모델 출처를 누락한 건 업계 신뢰에 좋지 않습니다. “서양 AI 제품 = 서양 기반 기술”이라는 암묵적 전제가 현실과 점점 멀어지고 있는 시점에 이 투명성 논쟁은 중요합니다.
API 로그 하나가 이 모든 논의를 끌어냈습니다. 적어도 다음에는 Cursor가 직접 말해줄 것 같습니다.
본 포스팅 참고 자료
- Cursor 공식 블로그 — Composer 2 발표 (cursor.com/blog/composer-2)
- Cursor 공식 블로그 — Self-Summarization 기술 문서 (cursor.com/blog/self-summarization)
- TechCrunch — “Cursor admits its new coding model was built on top of Moonshot AI’s Kimi” (2026.03.22) (techcrunch.com)
- VentureBeat — “Cursor’s Composer 2 was secretly built on a Chinese AI model” (2026.03.19) (venturebeat.com)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 정책 사항은 Cursor 공식 문서에서 최종 확인하시기 바랍니다. 본 포스팅은 특정 서비스의 구매·사용을 권유하지 않습니다.

댓글 남기기