Cursor Composer 2, “자체 개발”이 절반만 맞습니다

Published on

in

Cursor Composer 2, “자체 개발”이 절반만 맞습니다

2026.03.19 공식 출시
Cursor Composer 2 기준

Cursor Composer 2, “자체 개발”이 절반만 맞습니다

2026년 3월 19일, Cursor가 자체 개발 코딩 모델이라며 Composer 2를 발표했습니다. 발표 직후 CursorBench에서 Claude Opus 4.6을 뛰어넘었다는 수치가 화제가 됐고, 가격이 기존 대비 훨씬 싸다는 점도 주목받았습니다. 그런데 발표 사흘 뒤, 외부 개발자들이 API 프록시 덤프를 통해 이 모델의 정체를 파악했습니다. 결론부터 말씀드리면, “자체 개발”이라는 표현은 절반만 맞습니다.

61.3
CursorBench 점수
$2.50
출력 100만 토큰당
Kimi K2.5
기반 모델 정체

“자체 개발”이라는 말이 나온 이유

Cursor의 공식 블로그 발표문에는 “최초의 베이스 모델 지속 사전학습과 강화학습의 결합”이라는 표현이 있습니다. 코드 데이터만으로 학습했고, Cursor 내 에이전트 환경에 맞게 도구 호출·파일 편집·터미널 작업을 최적화했다고 설명합니다. (출처: Cursor 공식 블로그, 2026.03.19)

이 발표문만 보면 Cursor가 처음부터 끝까지 만든 모델처럼 읽힙니다. 실제로 많은 개발자들이 그렇게 이해했고, “드디어 Cursor가 자체 모델을”이라는 반응이 쏟아졌습니다. 그런데 이틀 뒤 상황이 바뀌었습니다.

외부 개발자들이 API 프록시 트래픽을 덤프해보니 Composer 2의 base model이 Moonshot AI의 Kimi K2.5라는 흔적이 나왔습니다. 이전 버전에서는 차단되던 특정 요청이 Composer 2에서 노출됐다가 즉시 패치된 것도 이 단서 중 하나였습니다. Cursor는 공식 발표문에서 모델의 출처를 별도로 공개하지 않았습니다.

▲ 목차로 돌아가기

Claude Opus 4.6을 이긴 숫자의 실체

Cursor 공식 자료에 있는 벤치마크 수치를 그대로 옮기면 이렇습니다.

모델 CursorBench Terminal-Bench 2.0 SWE-bench Multilingual
Composer 2 61.3 61.7 73.7
Composer 1.5 44.2 47.9 65.9
Composer 1 38.0 40.0 56.9

(출처: Cursor 공식 블로그 composer-2, 2026.03.19 / Terminal-Bench 2.0은 Laude Institute 제공)

💡 공식 발표 수치와 벤치마크 설계를 나란히 놓고 보니 이런 점이 보였습니다. CursorBench는 Cursor가 직접 만든 평가 기준이고, Terminal-Bench 2.0은 외부 기관(Laude Institute) 기준입니다. 두 지표 모두 Composer 2가 Composer 1.5보다 약 38% 높은 점수를 보입니다. 단, Cursor가 자사 벤치마크를 직접 설계한다는 점에서 외부 기준인 SWE-bench Multilingual 73.7점이 더 중립적인 참고치가 됩니다.

여기서 하나 짚고 싶은 부분이 있습니다. CursorBench는 Cursor 자체 제작 벤치마크입니다. (출처: Cursor 공식 블로그 cursorbench, 2026.03.11) 제3자가 만든 지표가 아니라는 뜻입니다. Claude Opus 4.6을 넘었다는 주장은 이 내부 기준 기반이고, 독립 평가 기관이 같은 조건으로 검증한 수치는 아직 공개되지 않았습니다.

그렇더라도 Terminal-Bench 2.0이나 SWE-bench Multilingual 같은 외부 지표에서도 이전 버전 대비 향상이 뚜렷하게 나오는 건 사실입니다. 이 부분까지 통째로 무시하기는 어렵습니다.

▲ 목차로 돌아가기

Kimi K2.5 논란, 공식 입장은 이렇습니다

2026년 3월 21일경, Moonshot AI 측은 처음에 Cursor가 Kimi K2.5 라이선스를 위반했을 수 있다고 문제를 제기했습니다. Kimi K2.5는 오픈소스로 공개된 모델이지만, 라이선스 조건에는 월 활성 사용자 수나 수익 기준을 넘을 경우 별도 협의가 필요하다는 조항이 있습니다.

⚠️ Moonshot AI는 초기 입장에서 라이선스 위반 가능성을 언급했으나, 이후 같은 뉴스 사이클 내에서 “공인된 파트너십”이라고 입장을 번복했습니다. (출처: Medium, @han.heloir, 2026.03.21) Cursor 측은 이 건에 대해 공식 답변을 내놓지 않은 상태입니다.

여기서 중요한 지점이 있습니다. Kimi K2.5 기반이라는 사실 자체가 문제는 아닙니다. 오픈소스 모델에 강화학습(RL)과 지속 사전학습(CPT)을 얹어 특정 도메인에 최적화하는 방식은 AI 업계에서 흔한 접근입니다. 문제는 투명성입니다. 발표문이 “자체 개발”이라는 뉘앙스를 강하게 풍기면서 출처를 밝히지 않았다는 게 커뮤니티의 반발 핵심이었습니다.

실제로 Cursor 공식 포럼(forum.cursor.com)에도 “Kimi K2.5 기반이라는 사실 자체는 괜찮은데, 투명하게 공개하지 않은 것이 문제”라는 의견이 다수를 차지했습니다. Composer 2를 쓰는 것 자체에 대한 신뢰 문제가 아니라, 발표 방식의 신뢰 문제인 것입니다.

▲ 목차로 돌아가기

Pro $20 안에서 실제로 얼마나 쓸 수 있나

Composer 2의 공개 요금은 입력 토큰 100만 개당 $0.50, 출력 토큰 100만 개당 $2.50(Standard 기준)입니다. Fast 변형은 입력 $1.50, 출력 $7.50이고, 에디터 기본값은 Fast입니다. (출처: Cursor 공식 docs models-and-pricing, 2026.03 기준)

Cursor Pro($20/월)는 두 개의 사용량 풀로 나뉩니다. 하나는 Auto + Composer 풀이고, 다른 하나는 API 풀($20 포함)입니다. Composer 2를 선택하면 Auto + Composer 풀에서 차감되는데, 공식 문서는 이 풀의 구체적인 토큰 한도를 숫자로 명시하지 않고 “넉넉한 포함된 사용량”이라고만 표현합니다.

💡 공식 문서와 실제 요금 구조를 같이 놓고 계산해보니 이렇게 됩니다. API 풀 $20 기준, Fast Composer 2 출력 토큰 단가 $7.50/M으로 계산하면 출력 토큰 약 266만 개 분량이 포함 사용량에 해당합니다. 에이전트 1회 실행에 평균 출력 토큰 2,000개 수준을 가정하면 약 1,300회 실행입니다. 매일 쓰는 파워 유저 기준 월 $60~100이 나온다는 공식 추산과 맞아 떨어집니다. (출처: Cursor 공식 docs models-and-pricing, 2026.03 기준)

여기서 놓치기 쉬운 게 있습니다. Pro+ ($60/월)는 API 풀이 $70으로 늘어납니다. 비율로 보면 요금이 3배인데 API 사용량은 3.5배가 되는 구조입니다. 매일 에이전트를 쓰는 사람이라면 Pro 그대로 두고 초과분을 온디맨드로 결제하는 것보다 Pro+로 올리는 쪽이 단가가 낮아집니다.

Ultra($200/월)는 API 풀이 $400입니다. 요금 대비 API 사용량 비율이 가장 유리하지만, 실제로 이 한도를 다 쓰는 경우는 공식 문서가 “여러 에이전트·자동화를 동시에 돌리는 파워 유저” 수준으로 한정합니다.

▲ 목차로 돌아가기

self-summarization이 장기 작업에서 다른 이유

대부분의 기사가 CursorBench 점수와 가격만 다루는데, 솔직히 더 흥미로운 부분은 내부 작동 방식입니다. Composer 2는 학습 단계에서 self-summarization 기법을 적용했습니다. 간단히 말하면, 컨텍스트 창이 꽉 찰 것 같을 때 모델 스스로 지금까지의 내용을 요약해서 압축하고, 그 요약 위에서 작업을 이어가는 방식입니다.

공식 연구 블로그(2026.03.17)에 따르면, 이전 접근 방식들은 “기억” 자체는 유지했지만 모델이 그 기억을 활용하는 훈련은 받지 않은 경우가 많았습니다. Composer 2는 self-summarization 트리거를 훈련 루프 안에 포함시켰습니다. 결과적으로 80,000 토큰 트리거 기준으로도 40,000 토큰 트리거와 CursorBench 점수가 거의 같았고, KV 캐시 크기는 약 1/5 수준으로 줄었습니다. (출처: Cursor 공식 블로그 self-summarization, 2026.03.17)

실제로 이게 어떤 의미인지 Terminal-Bench의 make-doom-for-mips 태스크에서 볼 수 있습니다. MIPS 아키텍처용 DOOM 빌드라는, 단계가 많고 여러 파일에 걸친 복잡한 작업에서 Composer 2가 170번의 단계를 거치면서 self-summarization을 반복했고, 100,000 토큰이 넘는 작업을 1,000 토큰 이내의 self-summary 연속으로 처리했습니다.

💡 기존 모델들이 긴 작업에서 흔히 “앞에서 한 걸 잊어버리는” 문제를 겪는 건 컨텍스트 창 한계 때문입니다. Composer 2는 이 한계를 없앤 게 아니라, 그 한계 안에서 스스로 압축하도록 훈련받았습니다. 코드베이스 전체를 리팩토링하거나 여러 파일이 엮인 버그를 잡는 작업에서 차이가 나는 이유가 여기 있습니다.

▲ 목차로 돌아가기

Claude Code, GitHub Copilot과 비교해보면

경쟁 도구들과 단순 비교를 해봅니다. Claude Code는 터미널 기반이라 에디터 UI가 없습니다. Cursor는 에디터 내 모든 도구 통합(파일 편집, 터미널, 파일 탐색기)이 한 화면에서 돌아가는 구조입니다. GitHub Copilot은 VS Code 확장 방식으로 IDE 통합이 자연스럽지만, Copilot 자체 에이전트 모델보다 외부 모델(Claude, GPT-5 등)을 붙여서 쓰는 형태입니다.

항목 Cursor Composer 2 Claude Code GitHub Copilot
에디터 통합 에디터 내장 터미널 전용 확장 방식
기본 모델 Composer 2 (Kimi K2.5 기반) Claude Sonnet 4.6 기준 선택 가능
기본 요금 $20/월 (Pro) API 종량제 $10~19/월
장기 작업 최적화 self-summarization 내장 1M 토큰 컨텍스트 모델 의존

(출처: 각 공식 사이트 기준, 2026.03.23 확인 / GitHub Copilot 요금은 개인 플랜 기준)

개인적인 관점을 하나 더 붙이면, Cursor가 자체 모델을 갖는 전략적 의미가 큽니다. Anthropic이나 OpenAI의 API 요금 변동에 덜 휘둘릴 수 있고, 요금제 설계의 자유도가 높아집니다. 실제로 공식 문서에 “TPS(처리 속도) 측면에서 Anthropic이 15% 제한을 걸었을 때 Composer GPT 쪽으로 트래픽을 돌릴 수 있었다”는 내용이 있습니다. (출처: Cursor 공식 블로그 composer-2 각주 2, 2026.03.19)

자체 모델 보유가 단순히 성능 경쟁이 아니라 공급망 안정화 차원이기도 하다는 뜻입니다. 이 부분이 외부에서 잘 주목받지 못한 포인트입니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. Composer 2는 Pro $20 요금제에서 무제한으로 쓸 수 있나요?
무제한은 아닙니다. Auto + Composer 풀에서 차감되며, 이 풀의 구체적 한도는 공식 문서에 숫자로 공개되어 있지 않습니다. 일반적인 에이전트 가끔 사용자는 $20 안에 들어오지만, 매일 집중적으로 쓰는 경우 $60~100 수준이 실사용 평균입니다. (출처: Cursor 공식 docs models-and-pricing, 2026.03)
Q2. Composer 2가 Kimi K2.5 기반이면 중국 회사 모델을 쓰는 건가요?
기반 모델이 Kimi K2.5(Moonshot AI, 중국)인 건 외부 개발자들이 API 덤프를 통해 확인한 내용입니다. 하지만 Cursor는 이 위에 강화학습과 지속 사전학습을 추가해 코딩 특화 최적화를 했고, 모든 실행은 Cursor 인프라에서 이루어집니다. Moonshot AI와의 파트너십 여부는 공식적으로 공개되지 않은 상태입니다.
Q3. Claude Opus 4.6보다 높은 점수라는데 실제로도 더 잘 짜나요?
CursorBench 기준으로 Composer 2(61.3)가 Claude Opus 4.6을 앞서는 건 공식 발표 수치입니다. 단, CursorBench는 Cursor가 직접 설계한 자체 평가 지표입니다. 제3자가 동일 조건에서 비교한 독립 벤치마크 결과는 아직 나오지 않았습니다. 실제 작업에서는 쓰는 언어, 코드베이스 규모, 작업 유형에 따라 결과가 달라질 수 있습니다.
Q4. Standard와 Fast 중 어떤 걸 써야 하나요?
에디터 기본값은 Fast입니다. 공식 문서에 따르면 Fast는 “대화형 세션 기본”으로 빠른 응답에 최적화되어 있고, Standard는 토큰당 비용이 더 낮습니다. (Fast 출력 $7.50/M, Standard 출력 $2.50/M) 긴 배치 작업이나 비용을 아끼고 싶다면 설정에서 Standard로 전환하는 게 유리합니다. (출처: Cursor 공식 docs cursor-composer-2, 2026.03)
Q5. Composer 2가 자동으로 선택되나요, 아니면 직접 골라야 하나요?
Auto 모드를 쓰면 Cursor가 자동으로 모델을 선택합니다. Auto 풀과 Composer 풀은 같은 사용량 풀을 공유하므로, Auto가 Composer 2를 선택했을 때도 같은 풀에서 차감됩니다. Composer 2를 명시적으로 고정하고 싶다면 에디터 모델 선택 드롭다운에서 직접 지정하면 됩니다.

▲ 목차로 돌아가기

마치며

Cursor Composer 2는 분명 이전 버전보다 성능이 크게 뛰었습니다. CursorBench 기준 38점에서 61점으로, Terminal-Bench 2.0에서도 40점에서 61점으로 올랐고, self-summarization 기반의 장기 작업 처리 방식은 기술적으로도 새로운 시도입니다. 가격도 기존 대형 모델 대비 낮습니다.

다만 발표 방식의 투명성 문제는 솔직히 아쉬웠습니다. “자체 개발”과 “Kimi K2.5 기반 강화학습”은 동시에 사실일 수 있지만, 발표문이 전자만 강조하고 후자를 굳이 언급하지 않은 건 커뮤니티의 신뢰를 깎아먹었습니다. 성능과 투명성은 별개 문제입니다.

Cursor를 이미 쓰고 있다면 Composer 2를 기본 에이전트 모델로 쓰는 건 합리적인 선택입니다. 다만 요금 구조를 꼼꼼히 보고 Fast/Standard를 상황에 따라 전환하는 습관을 들이는 게 실비용을 줄이는 데 도움이 됩니다. 아직 Cursor를 쓰지 않는 분이라면 Hobby 무료 플랜으로 먼저 체감해보는 게 이 모든 논란보다 직접적인 판단 근거가 됩니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Cursor 공식 블로그 — Composer 2 소개 (cursor.com/ko/blog/composer-2)
  2. Cursor 공식 문서 — 모델 및 요금 (cursor.com/ko/docs/models-and-pricing)
  3. Cursor 공식 연구 블로그 — self-summarization (cursor.com/ko/blog/self-summarization)
  4. Cursor 공식 블로그 — CursorBench 소개 (cursor.com/ko/blog/cursorbench)
  5. Medium @han.heloir — Composer 2 논란 분석 (medium.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 요금·수치는 2026.03.23 기준이며, Cursor 공식 사이트에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기