Cursor Composer 2, 벤치마크 1위라는 말이 사실일까요?

Published on

2026년 3월 23일

2026.03.19 출시 기준
Composer 2 Fast/Standard
Terminal-Bench 2.0 기준

Cursor Composer 2, 벤치마크 1위라는 말이 사실일까요?

2026년 3월 19일, Cursor가 자체 개발 코딩 모델 Composer 2를 출시했습니다. 공식 블로그는 “Claude Opus 4.6을 Terminal-Bench 2.0에서 이겼다”고 발표했습니다. 그런데 같은 벤치마크의 공식 리더보드를 열어보면 얘기가 달라집니다.

61.7%

Terminal-Bench 2.0
Cursor 공식 제출

$0.50/$2.50

입출력 100만 토큰당
(Standard 기준)

5~7×

Opus 4.6 대비
실사용 속도 (추정)

Composer 2가 뭔지부터

Cursor Composer 2는 Cursor가 처음 만든 자체 에이전트형 코딩 모델로, 2026년 3월 19일 공식 출시됐습니다. 외부 모델을 API로 연결하는 방식이 아니라 Cursor가 직접 학습시킨 모델입니다. 다만 기반 모델이 중국 Kimi K2.5라는 점은 출시 직후부터 커뮤니티에서 논란이 됐습니다. Cursor 팀원인 lrobinson2011은 Reddit에서 “단순 파인튜닝이 아니라 계속 사전학습(continued pretraining)과 고연산 강화학습(high-compute RL)을 거쳤다”고 직접 밝혔습니다.

Composer 1, 1.5와의 가장 큰 차이는 세 가지입니다. 첫째, 학습 중 자기 요약(self-summarization) 기술을 적용해 장시간 작업에서 맥락을 잃지 않도록 설계됐습니다. 둘째, Fast 변형과 Standard 변형으로 나뉘어 속도·비용 트레이드오프를 선택할 수 있습니다. 셋째, 에디터 내 도구 사용, 파일 편집, 터미널 작업에 특화되어 Cursor 환경에서의 에이전트 작업에 최적화됐습니다.

Pro 플랜 개인 사용자는 Composer 전용 사용량 풀(usage pool)이 적용돼 API 요금을 직접 내지 않습니다. 반면 팀·엔터프라이즈 플랜은 아래 토큰당 요금이 그대로 청구됩니다. 이 차이가 실제 비용 계산에서 생각보다 큽니다.

▲ 목차로 돌아가기

벤치마크 숫자, 공식 리더보드와 비교해봤습니다

💡 공식 발표문과 동일 벤치마크의 리더보드를 같이 놓고 보니 이런 차이가 보였습니다.

Cursor 공식 블로그는 “Composer 2가 Terminal-Bench 2.0에서 61.7%를 기록했고, Claude Code + Opus 4.6의 58.0%를 앞섰다”고 밝혔습니다. 숫자 자체는 사실입니다. 문제는 이게 전체 리더보드에서 어느 위치냐는 거입니다. (출처: Cursor 공식 블로그 cursor.com/blog/composer-2, 2026.03.19)

Terminal-Bench 2.0 공식 리더보드(tbench.ai, 2026.03.23 기준)를 직접 열어보면, Cursor 제출 결과(61.7%)는 전체 120개 항목 중 30위권에 위치합니다. 1위는 ForgeCode + Claude Opus 4.6 조합으로 81.8%입니다. Cursor가 비교한 Claude Code + Opus 4.6(58.0%)는 39위였고, 같은 Opus 4.6라도 어떤 에이전트를 쓰느냐에 따라 최대 23.8%포인트 차이가 납니다.

모델 / 에이전트 조합	Terminal-Bench 2.0	출력 $1M당
ForgeCode + Claude Opus 4.6 (1위)	81.8%	$25
Composer 2 (Cursor 공식 제출)	61.7%	$2.50
Claude Code + Opus 4.6 (Cursor가 비교 대상으로 제시)	58.0%	$25
Kimi K2.5 + Terminus 2 (기반 모델)	43.2%	–

Cursor는 Claude Code + Opus 4.6 조합만 골라서 비교했습니다. 같은 Opus 4.6에 더 강한 에이전트를 붙이면 20%p 이상 차이가 납니다. 비교 조건이 Composer 2에 유리하게 선택된 셈입니다.

▲ 목차로 돌아가기

가격 구조, Pro 플랜이라면 다릅니다

공식 문서에 나온 토큰당 가격은 Standard 기준 입력 $0.50/M, 출력 $2.50/M입니다. Fast 변형은 입력 $1.50/M, 출력 $7.50/M로 3배 더 비쌉니다. (출처: cursor.com/docs/models/cursor-composer-2) 같은 출력 성능의 다른 Fast 모델보다는 저렴하다고 공식 문서에 나와 있습니다.

여기서 중요한 분기점이 하나 있습니다. 월 $20짜리 Pro 플랜 개인 사용자는 이 API 가격이 직접 청구되지 않습니다. 플랜에 포함된 Composer 전용 사용량 풀(usage pool)이 따로 잡혀 있고, 소진 전까지는 추가 요금이 없습니다. 반면 팀·엔터프라이즈 플랜 사용자는 위 API 요금이 그대로 청구됩니다. 팀 플랜에서 개발자 10명이 하루 평균 1M 토큰씩 출력을 쓰면, 월 출력 비용만 약 $750이 나옵니다(10명 × 30일 × $2.50). 개인 Pro와 팀 플랜의 실질 비용 구조는 완전히 다릅니다.

Cursor는 제품 기본값을 Fast 변형으로 설정해뒀습니다. 즉, 아무 설정 없이 쓰면 Standard가 아닌 Fast로 돌아가고 있다는 뜻입니다. 비용에 민감하다면 모델 설정에서 Standard로 바꾸는 것이 첫 번째 확인 사항입니다.

▲ 목차로 돌아가기

실제로 써본 사람들은 뭐라고 했나

Reddit r/cursor 커뮤니티(구독자 약 128,000명)에서 출시 직후 3일간 쌓인 후기들을 정리하면 패턴이 보입니다. 긍정적인 경우는 대부분 “빠르다”는 공통점이 있었고, 부정적인 경우는 “복잡한 백엔드 로직에서 방향을 잃는다”로 수렴됩니다.

사용자 Arindam_200(2026.03.21)은 풀스택 Reddit 클론 빌드 실험을 했는데, 프론트엔드와 배포는 잘 됐지만 인증 로직에서 멈췄다고 했습니다. 두 번째 프롬프트에서 결국 수정됐지만, Opus 4.6이나 GPT-5.4만큼 복잡한 작업의 신뢰도가 나오진 않는다고 봤습니다. 속도는 Opus 4.6 대비 5~7배 빠른 것으로 체감했다고 했습니다(추정치, 공식 수치 아님).

반면 사용자 RafeSacks는 23개 호출 지점을 수정하는 단순한 getLabel() 함수 리팩토링에서 Composer 2가 총 5.8M 토큰을 소모했다고 기록을 남겼습니다. 같은 작업을 Opus 4.6으로 하면 원샷으로 끝났을 거라는 표현도 있었습니다. 속도가 빠른 대신 정밀도가 낮아 결국 반복 횟수가 늘고 총 토큰 사용량이 역전되는 경우입니다. 결국 Composer 2가 진짜 빠른지는 작업 복잡도에 따라 달라집니다.

▲ 목차로 돌아가기

캐시 토큰 가격이 조용히 비싼 이유

💡 공식 FAQ와 커뮤니티 피드백을 같이 보니, 캐시 구조가 생각보다 비용에 큰 영향을 줬습니다.

AI 코딩 도구를 쓸 때 실제 청구 비용의 상당 부분은 캐시 토큰에서 나옵니다. 반복 작업에서 같은 컨텍스트가 재사용되면 캐시 가격이 적용되는 구조입니다. 일반적으로 다른 모델은 캐시 토큰 가격을 입력 가격의 1/10 수준으로 책정합니다.

Cursor 공식 포럼에서 사용자 rettinem은 “Composer 2의 캐시 토큰 가격이 입력의 1/2.5 수준이고, 이건 경쟁사의 4배”라고 지적했습니다(forum.cursor.com, 2026.03.19). 공식 문서는 이 부분에 대해 별도 이유를 밝히지 않았습니다. 입력 $0.50/M에서 캐시 할인이 1/10이라면 캐시는 $0.05/M이어야 하는데, 1/2.5라면 $0.20/M이 됩니다. 장시간 반복 에이전트 작업에서 이 차이는 무시하기 어렵습니다.

이 문제는 특히 팀·엔터프라이즈 플랜 사용자에게 직접 영향을 줍니다. Pro 플랜 개인 사용자는 풀 방식이라 크게 체감하기 어렵지만, API 요금이 직접 청구되는 플랜이라면 캐시 토큰 구조를 반드시 확인해야 합니다.

▲ 목차로 돌아가기

어떤 작업에 쓰면 되고, 어떤 작업엔 위험한가

출시 직후 3일간 커뮤니티 피드백과 공식 문서를 교차해보면 패턴이 나옵니다. Composer 2가 잘 하는 작업은 UI 컴포넌트 생성, 보일러플레이트 코드 작성, 반복 리팩토링처럼 정답이 비교적 명확한 작업입니다. 실제로 UI 품질에 대해서는 커뮤니티에서 긍정 평가가 많았습니다.

반대로 믿기 어려운 작업은 복잡한 백엔드 인증 로직, 크로스파일 의존성이 깊은 리팩토링, 대형 코드베이스 전체 이해가 필요한 작업입니다. 사용자 vvrider는 “큰 코드베이스에서 빠르게 처리해줬는데 결과를 확인해보니 틀렸다. 속도가 품질을 떨어뜨렸다”고 했습니다. Bulky-Peach-2500은 “특정 코드 패턴에만 훈련되어 있어서 다른 패턴을 알려줘도 고집을 부린다”는 표현을 썼습니다.

커뮤니티에서 실제로 굳어지고 있는 활용 패턴은 ‘복잡한 설계는 Opus 4.6, 빠른 실행은 Composer 2’입니다. Composer 2로 80%를 빠르게 쌓고, 나머지 민감한 부분만 더 강한 모델로 검토하는 방식입니다. 이게 현재로서는 가장 합리적인 조합으로 보입니다.

작업 유형	Composer 2	Opus 4.6
UI 컴포넌트 생성	✅ 빠르고 품질 양호	✅ 정밀하나 느림
보일러플레이트·반복 코드	✅ 최적	🔶 과하다
복잡한 인증·보안 로직	⚠️ 방향 잃을 수 있음	✅ 신뢰도 높음
크로스파일 대형 리팩토링	⚠️ 토큰 낭비 위험	✅ 안정적
MCP 서버 연동 작업	⚠️ 재시작 필요 보고 있음	✅ 안정적

▲ 목차로 돌아가기

자주 묻는 것들 Q&A

Q1. Composer 2는 Pro 플랜에서 무료로 쓸 수 있나요?
＋

Pro 플랜 개인 사용자는 Composer 전용 사용량 풀 안에서 추가 요금 없이 사용 가능합니다. 풀을 다 쓰면 그때부터 API 요금이 청구됩니다. 팀·엔터프라이즈 플랜은 처음부터 토큰당 요금이 적용됩니다. (출처: cursor.com/docs/models/cursor-composer-2)

Q2. Fast와 Standard 중 어떤 걸 기본으로 써야 하나요?
＋

제품 기본값이 Fast로 설정됩니다. 속도가 중요한 인터랙티브 세션엔 Fast, 비용 효율이 우선이라면 Standard로 바꾸는 게 낫습니다. Fast는 입력 $1.50/M, Standard는 입력 $0.50/M으로 3배 차이입니다.

Q3. Composer 2가 Kimi K2.5 기반이라는 게 문제가 되나요?
＋

기업 보안 정책 측면에서 논란이 있습니다. Reddit에서 일부 사용자는 “중국 기반 모델을 사내 코드에 쓰는 게 부담스럽다”는 의견을 냈습니다. Cursor는 계속 사전학습과 강화학습을 거쳐 성능이 달라졌다고 밝혔지만, 기업 보안 정책이 엄격하다면 내부 검토가 필요합니다.

Q4. MCP 서버 연동이 안 된다는 이슈가 있는데 해결됐나요?
＋

2026년 3월 20일 기준으로 일부 사용자가 Composer 2 전환 후 MCP 서버를 인식 못 하는 현상을 보고했습니다. Cursor 재시작으로 해결되는 경우가 많다고 합니다. Cursor가 공식 답변을 내놓지 않은 부분입니다.

Q5. CursorBench와 Terminal-Bench는 어떻게 다른가요?
＋

CursorBench는 Cursor가 자체 개발한 내부 벤치마크로, Cursor 환경에 특화된 태스크를 기준으로 합니다. Terminal-Bench 2.0은 Laude Institute가 운영하는 외부 공개 벤치마크로, 여러 에이전트와 모델 조합을 동일 조건에서 비교합니다. Cursor가 CursorBench에서 높은 점수를 내는 건 자기 환경에 맞춰 학습된 덕이 큽니다.

▲ 목차로 돌아가기

마치며 — 솔직한 총평

Composer 2는 나쁜 모델이 아닙니다. Composer 1.5 대비 CursorBench 기준 38.0 → 61.3으로 올라갔고, 실사용자들의 속도 피드백은 대체로 긍정적입니다. 가성비만 따지면 같은 급의 다른 빠른 모델들 중에서 가격 경쟁력이 있습니다.

그런데 “Claude Opus 4.6을 이겼다”는 표현에는 조건이 필요합니다. Claude Code라는 특정 에이전트와 Opus 4.6을 묶었을 때의 비교이고, 더 강한 에이전트를 쓴 조합들은 여전히 20%p 이상 앞서 있습니다. 벤치마크 숫자는 같은 Terminal-Bench 2.0이지만 에이전트 선택에 따라 결과가 크게 달라진다는 점을 발표문에서 강조하지 않은 부분이 좀 아쉬웠습니다.

결론은 간단합니다. 프로토타입 속도를 올리고 싶다면 Composer 2는 지금 당장 시도해볼 가치가 있습니다. 복잡한 프로덕션 코드베이스나 보안에 민감한 로직은 아직 더 강한 모델 옆에 두고 쓰는 편이 낫습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Cursor 공식 블로그 — Composer 2 출시 발표 (cursor.com/blog/composer-2)
Cursor 공식 문서 — Composer 2 모델 스펙 및 요금 (cursor.com/docs/models/cursor-composer-2)
Terminal-Bench 2.0 공식 리더보드 (tbench.ai/leaderboard/terminal-bench/2.0)
Cursor 커뮤니티 포럼 — Composer 2 사용 경험 공유 (forum.cursor.com)
Reddit r/cursor — Composer 2 실사용 후기 (reddit.com/r/cursor)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
모든 수치는 2026.03.23 기준이며, 가격·사용량 정책은 Cursor 공식 사이트에서 최신 정보를 확인하세요.
벤치마크 수치는 공개된 공식 자료 기준이며, 실제 사용 환경에 따라 결과가 다를 수 있습니다.

AI 코딩 도구, Cursor Composer 2, Cursor 업데이트, CursorBench, 코딩 모델 비교

Cursor Composer 2, 벤치마크 1위라는 말이 사실일까요?

Cursor Composer 2, 벤치마크 1위라는 말이 사실일까요?

Composer 2가 뭔지부터

벤치마크 숫자, 공식 리더보드와 비교해봤습니다

가격 구조, Pro 플랜이라면 다릅니다

실제로 써본 사람들은 뭐라고 했나

캐시 토큰 가격이 조용히 비싼 이유

어떤 작업에 쓰면 되고, 어떤 작업엔 위험한가

자주 묻는 것들 Q&A

마치며 — 솔직한 총평

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Cursor Composer 2, 벤치마크 1위라는 말이 사실일까요?

Cursor Composer 2, 벤치마크 1위라는 말이 사실일까요?

Composer 2가 뭔지부터

벤치마크 숫자, 공식 리더보드와 비교해봤습니다

가격 구조, Pro 플랜이라면 다릅니다

실제로 써본 사람들은 뭐라고 했나

캐시 토큰 가격이 조용히 비싼 이유

어떤 작업에 쓰면 되고, 어떤 작업엔 위험한가

자주 묻는 것들 Q&A

마치며 — 솔직한 총평

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기