Cursor Composer 2, 3가지 수치로 직접 따져봤습니다

Published on

in

Cursor Composer 2, 3가지 수치로 직접 따져봤습니다

2026.03.19 출시 기준
Cursor Composer 2 공식 기준
IT/AI

Cursor Composer 2, 3가지 수치로 직접 따져봤습니다

출시 12일 만에 기술 리포트까지 공개됐습니다. 벤치마크 숫자, 가격 구조, 베이스 모델 논란 — 공식 문서와 실사용 반응을 같이 놓고 봤을 때 놓치기 쉬운 지점이 세 가지 있었습니다.

61.3
CursorBench 점수
90%
Opus 4.6 대비 비용 절감
Kimi K2.5
베이스 모델 (공개 확인)

Composer 2가 뭔지 30초 요약

Cursor Composer 2는 AI 코딩 에디터 Cursor가 자체 개발한 세 번째 코딩 전용 모델입니다. 2026년 3월 19일 출시됐고, 같은 날 기술 리포트도 arXiv에 게시됐습니다. 코딩 작업 외에는 사용 불가한 것이 특징으로, Cursor 공동창업자 Aman Sanger는 “세금 신고나 시 쓰기는 못 합니다”라고 직접 밝혔습니다. (출처: DataCamp, Cursor Composer 2 가이드, 2026.03.23)

Composer 계보는 Composer 1(2025.10.29) → Composer 1.5(2026.02.09) → Composer 2(2026.03.19) 순서로 이어집니다. Composer 1.5에서 2까지 간격이 6주밖에 안 됩니다. 빠른 출시 주기가 눈에 띕니다.

Cursor Pro($20/월) 이상 유료 플랜에서 사용 가능하고, 개인 플랜에서 Composer 사용량은 제3자 모델 크레딧 풀과 별도 풀로 운영됩니다. Auto 모드에서 Composer 모델이 선택되면 크레딧 차감 없이 사용된다는 점이 실용적으로 중요합니다.

▲ 목차로 돌아가기

CursorBench 61.3 — 이 숫자를 그냥 믿으면 안 됩니다

Cursor 공식 블로그에 따르면 Composer 2는 CursorBench에서 61.3점을 기록했습니다. Composer 1.5(44.2) 대비 37% 향상, Composer 1(38.0)보다는 61% 높은 수치입니다. (출처: cursor.com/blog/composer-2, 2026.03.19)

모델 CursorBench Terminal-Bench 2.0 SWE-bench Multi.
Composer 2 61.3 61.7 73.7
Composer 1.5 44.2 47.9 65.9
Composer 1 38.0 40.0 56.9
Opus 4.6 High 58.2 58.0 75.8
GPT-5.4 63.9 75.1 76.8
Kimi K2.5 (베이스) 36.0 47.3 65.1

(출처: Cursor Composer 2 Technical Report, arXiv:2603.24477, 2026.03.25)

💡 벤치마크 수치와 공식 발표 사이에 설명하지 않은 간격이 있습니다

CursorBench는 Cursor 엔지니어링 팀의 실제 세션에서 추출한 내부 벤치마크입니다. 외부에서 독립적으로 재현할 방법이 없습니다. 그리고 Cursor는 비제3자 모델(Composer)과 제3자 모델의 점수를 측정할 때 다른 방식을 씁니다. Terminal-Bench 2.0 점수 기준도 모델마다 “공식 리더보드 점수와 자체 인프라 점수 중 최대값”을 씁니다. (출처: Cursor 기술 리포트, 각주 1, 2026.03.25)

이게 유독 눈에 띄는 이유는, 같은 Kimi K2.5 기반인데도 베이스 모델(CursorBench 36.0)과 Composer 2(61.3) 사이의 격차가 25.3점이나 난다는 점입니다. Cursor 측은 총 학습 컴퓨팅의 약 3/4를 자체 사후 학습(continued pretraining + RL)에 썼다고 밝혔지만, 이 수치를 독립적으로 검증할 방법은 아직 없습니다.

CursorBench가 내부 기준이라는 점은 새로운 관점을 줍니다. SWE-bench Verified에서는 Composer 2 점수가 아예 없습니다. OpenAI가 프런티어 모델들이 테스트 케이스를 암기하고 있다는 증거를 발견해 SWE-bench Verified 결과 게시를 중단한 시점과 Cursor의 자체 벤치마크 전환이 맞물리는 타이밍입니다. (출처: OpenAI 공식 블로그, 2026.03.24)

▲ 목차로 돌아가기

가격이 90% 싸다는데, 실제로 계산해 보면

Composer 2의 가격 구조는 두 가지입니다. Standard: 입력 $0.50/1M 토큰, 출력 $2.50/1M 토큰. Fast: 입력 $1.50/1M, 출력 $7.50/1M. (출처: cursor.com/blog/composer-2, 2026.03.19)

모델 입력 (1M 토큰) 출력 (1M 토큰) Composer 2 Standard 대비
Composer 2 Standard $0.50 $2.50 기준
Composer 2 Fast $1.50 $7.50 3배
GPT-5.4 $2.50 $15.00 5배~6배
Claude Opus 4.6 $5.00 $25.00 약 10배

(출처: DataCamp Composer 2 가이드, 2026.03.23 / cursor.com/blog/composer-2, 2026.03.19)

숫자만 보면 놀랍습니다. 그런데 계산을 해보면 맥락이 달라집니다. 팀에서 하루 1,000건의 에이전트 요청을 보낸다고 가정하면, 요청당 평균 10K 입력 + 3K 출력 토큰이라 했을 때:

일일 비용 계산식 (1,000건/일 기준)

Composer 2 Standard = (10K×$0.50 + 3K×$2.50) / 1,000,000 × 1,000

= (0.005 + 0.0075) × 1,000 = 약 $12.50/일

Claude Opus 4.6 = (10K×$5.00 + 3K×$25.00) / 1,000,000 × 1,000

= (0.05 + 0.075) × 1,000 = 약 $125.00/일

월 단위로 환산하면 약 $375 vs $3,750, 즉 10배 차이입니다. 물론 Composer 2는 코딩 전용이라 Opus 4.6과 1:1로 교체할 수 없습니다. 하지만 반복적인 리팩터링, 커밋, 단순 기능 추가 같은 일상적 작업에 Composer 2를 기본으로 쓰고 복잡한 설계나 문서 작업에만 Opus/GPT를 쓰는 조합이면 팀 단위에서 비용이 크게 달라집니다.

▲ 목차로 돌아가기

Kimi K2.5 기반 논란 — Cursor가 직접 인정한 내용

출시 당일인 3월 19일, Cursor는 베이스 모델을 공개하지 않았습니다. 하지만 3월 20일, 한 사용자가 API 요청 헤더에서 모델 ID를 찾아냈습니다. Cursor의 개발자 교육 VP Lee Robinson이 이를 직접 확인했고, Kimi K2.5가 베이스 모델임을 인정했습니다. (출처: DataCamp Composer 2 가이드, 2026.03.23)

💡 공식 발표문과 이후 인정 사항을 나란히 놓고 보면 이런 차이가 납니다

출시 당시 기술 리포트에는 베이스 모델 정보가 없었습니다. 나중에 공개된 arXiv 리포트(2603.24477)에서야 “Kimi K2.5, 1.04T 파라미터 / 32B 활성 MoE 모델”이라고 명확히 기재됐습니다. Cursor 공동창업자 Aman Sanger는 “더 투명하게 해야 했다”고 인정했고, Moonshot AI는 Fireworks AI를 통한 정식 상업 파트너십임을 확인했습니다.

이 지점이 흥미로운 이유가 있습니다. 기술 리포트에 따르면 전체 학습 컴퓨팅의 약 3/4는 Cursor의 자체 사후 학습(continued pretraining + RL)에 사용됐습니다. 그러니까 Kimi K2.5를 가져다가 “조금 튜닝한 것”이 아니라, Kimi K2.5는 시작점이고 이후 대규모 학습이 진행된 것입니다. CursorBench 기준으로 Kimi K2.5 베이스(36.0) 대비 Composer 2(61.3)의 25.3점 격차가 이를 보여줍니다. 학습 투자가 실제로 성능을 끌어올렸다는 방증입니다.

다만 “베이스 모델이 뭔지 아무도 몰랐다”는 상황이 며칠간 있었다는 사실은 기억해 둘 필요가 있습니다. 여러 AI 코딩 도구들이 같은 베이스를 공유할 경우, 벤치마크 비교가 점점 복잡해집니다. GLM-5도 Kimi K2.5 기반이고, 두 모델이 CursorBench에서 36.0(Kimi K2.5)과 61.3(Composer 2)으로 갈리는 건 사후 학습의 영향이 크다는 점을 다시 보여줍니다.

▲ 목차로 돌아가기

Fast 기본값의 함정 — 왜 더 비싼 걸 디폴트로 뒀을까

Cursor는 두 변형의 “지능은 동일하다”고 밝혔습니다. 그런데 기본값을 Fast로 설정했습니다. Fast는 Standard보다 입력 3배, 출력 3배 비쌉니다. (출처: cursor.com/blog/composer-2, 2026.03.19)

💡 가격이 같다고 홍보하지 않은 이유가 여기 있습니다

모델 드롭다운에서 “Composer 2″를 선택하면 Fast 변형이 실행됩니다. Standard를 쓰려면 별도로 “Composer 2 Standard”를 선택해야 합니다. 많은 사용자가 “Composer 2 = $0.50/1M 입력”으로 인식하지만, 실제 기본 경험은 $1.50/1M짜리 Fast입니다.

개인 플랜 사용자라면 이 구분이 크게 중요하지 않을 수 있습니다. Auto 모드에서 Composer가 선택되면 별도 크레딧 풀에서 차감되기 때문입니다. 하지만 API로 Composer 2를 직접 사용하는 팀이라면, 지속적인 배경 작업에 Standard를 쓰고 실시간 인터랙티브 세션에만 Fast를 쓰는 전략이 비용을 3배 줄일 수 있습니다.

Cursor가 Fast를 기본값으로 설정한 공식적인 이유는 “개발자가 실시간 코딩 중에 즉각적인 응답을 기대하기 때문”이라고 밝혔습니다. 사용성 측면에서는 합당한 이유입니다. 다만 이 사실을 모르면 장기적으로 비용이 커집니다.

▲ 목차로 돌아가기

실사용자 반응 — 벤치마크와 달랐던 부분

출시 직후 Reddit(r/LLM)에 올라온 반응 중 인상적인 것이 있었습니다. “어제부터 테스트해 봤는데, 전체적으로 실망스럽습니다. 추론이나 계획 없이 빠르게 실행하려다 보니 중간 복잡도 작업에서도 불필요하게 복잡해집니다. 실제로 코드베이스에 오류를 더 많이 만들었습니다.” (출처: Reddit r/LLM, 2026.03.20)

이 반응은 DataCamp 가이드에서도 비슷하게 확인됩니다. “다단계 실행 계획에서 중간 검증 단계를 건너뛰고 구현으로 급진하는 경향이 있다. 학습 아티팩트로 추정된다.” 기술 리포트에서 비선형 길이 패널티를 도입해 쉬운 작업에서는 빠르게 마치도록 훈련했다고 나오는데, 이 부분이 오히려 부작용이 됐을 수 있습니다. (출처: Cursor Technical Report, 2026.03.25)

실제 Terminal-Bench 2.0에서의 시연을 보면, Composer 2는 170번의 턴에 걸쳐 100,000 토큰 이상의 컨텍스트를 압축하면서 “make-doom-for-mips” 문제를 해결했습니다. 이런 장시간 작업에서는 강점이 명확합니다. 반대로 짧고 단순한 작업에서는 과잉 행동이 나오는 경향이 있습니다. 복잡도에 따라 맞게 쓰는 게 중요합니다.

📌 실제 사용 팁 — 언제 Composer 2를 쓰고, 언제 다른 모델을 쓸까

  • Composer 2가 유리한 상황: 대규모 리팩터링, 멀티파일 기능 추가, 버그 트레이싱, 장시간 자율 에이전트 작업
  • 다른 모델이 나은 상황: 아키텍처 설계 토론, 문서 작성, 짧고 단순한 1회성 질문, 코딩 이외 모든 작업
  • Standard vs Fast: 배경 작업·야간 배치 → Standard / 실시간 인터랙티브 → Fast

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Q1. Cursor 무료(Hobby) 플랜에서 Composer 2를 쓸 수 있나요?
Composer 2는 유료 플랜(Pro 이상)에서만 사용 가능합니다. Hobby 플랜에는 에이전트 요청 횟수가 제한돼 있고, Composer 모델은 포함되지 않습니다. Pro 플랜은 월 $20(연간 결제 시 $16)입니다. (출처: cursor.com, 2026.03.31 기준)
Q2. Composer 2와 Claude Code 중 어떤 걸 써야 하나요?
2026년 개발자 설문에서 Claude Code를 “가장 선호하는 도구”로 꼽은 비율이 46%, Cursor는 19%였습니다. 두 도구는 경쟁보다 보완에 가깝습니다. Cursor는 IDE 내 멀티파일 편집, Claude Code는 복잡한 자율 작업에서 강합니다. 약 70%의 개발자가 2~4개 AI 툴을 동시에 사용한다는 조사 결과가 있습니다. (출처: DataCamp, 2026.03.23)
Q3. Kimi K2.5가 베이스인데 직접 Kimi K2.5를 쓰면 더 싸지 않나요?
가격만 보면 그렇습니다. 하지만 CursorBench에서 Kimi K2.5는 36.0, Composer 2는 61.3입니다. 같은 베이스를 쓰더라도 Cursor의 continued pretraining과 대규모 RL이 에이전트 코딩 성능을 크게 끌어올렸습니다. 또한 Composer 2는 Cursor IDE에 완전히 통합돼 있어 컨텍스트 자동 주입, 코드베이스 탐색, 터미널 실행 등이 별도 설정 없이 작동합니다.
Q4. Self-summarization은 어떻게 활성화하나요?
컨텍스트 창이 채워지면 자동으로 작동합니다. 수동으로 트리거하려면 채팅창에 /compress 명령어를 입력하면 됩니다. 에이전트가 새 대화를 시작하도록 제안한다면 컨텍스트 압축으로도 감당이 안 된다는 신호입니다. (출처: DataCamp, 2026.03.23)
Q5. Auto 모드에서 Composer 2가 선택되면 크레딧이 차감되나요?
Auto 모드에서 Cursor가 Composer 모델을 선택하는 경우, Composer 전용 사용량 풀에서 차감되며 제3자 모델 월간 크레딧 풀에는 영향을 주지 않습니다. 단, 사용자가 직접 GPT-5.4나 Opus 4.6 같은 제3자 모델을 지정하면 크레딧 풀에서 차감됩니다. (출처: cursor.com 가격 정책, 2026.03.31 기준)

▲ 목차로 돌아가기

마치며 — 총평

Composer 2를 공식 자료와 실사용 반응을 같이 보면 세 줄로 요약됩니다. 성능은 Opus 4.6을 CursorBench에서 앞질렀고, 가격은 구조를 제대로 알면 팀 단위에서 실질적인 절감이 가능하며, 베이스 모델 비공개 논란은 Cursor가 직접 “더 투명하게 해야 했다”고 인정했습니다.

한 가지 더 기억해야 할 것은 CursorBench가 Cursor 내부 기준이라는 점입니다. 외부 검증 없이 이 수치를 절대 기준처럼 받아들이기보다, 실제로 자신의 작업에서 어떤 성능이 나오는지 직접 확인하는 것이 중요합니다. 코딩 전용 모델이라는 한계와 Fast 기본값이라는 비용 함정도 알고 써야 의도한 대로 활용할 수 있습니다.

6주마다 새 버전이 나오는 속도를 고려하면, 지금의 61.3이 얼마나 유효할지는 모릅니다. 하지만 지금 시점에서 비용 대비 에이전트 코딩 성능을 따질 때 Composer 2는 무시하기 어려운 선택지입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Cursor 공식 블로그 — Introducing Composer 2: cursor.com/blog/composer-2 (2026.03.19)
  2. Cursor 기술 리포트 — Composer 2 Technical Report (arXiv:2603.24477): cursor.com/resources/Composer2.pdf (2026.03.25)
  3. DataCamp — Composer 2: Benchmarks, Pricing, and How It Compares: datacamp.com/blog/composer-2 (2026.03.23)
  4. Cursor 공식 한국어 기술 리포트 소개: cursor.com/ko/blog/composer-2-technical-report
  5. Reddit r/LLM — Composer 2 사용자 반응: reddit.com/r/LLM/comments/1rz3i1r (2026.03.20)

본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 수치 인용 시 원문 출처를 반드시 확인하세요. 본 포스팅은 Cursor와 무관한 독립 리뷰입니다.

댓글 남기기


최신 글

  • 국민취업지원제도 신청 2026, 구직촉진수당 체크
    국민취업지원제도 신청 2026 기준으로 유형과 자격, 월 소득과 재산, 구직활동 계획 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민연금 반환일시금 청구 2026, 수급 조건 확인
    국민연금 반환일시금 청구 2026 기준으로 10년 기준, 연령·국외이주 등, 신분·계좌·증빙 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴대폰 명의도용 신고 2026, 개통 내역 확인
    휴대폰 명의도용 신고 2026 기준으로 모르는 회선, 최근 인증·개통 문자, 통신사와 번호 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기