Claude Sonnet 4.6 MCP, 한도가 더 빨리 닳는 이유 있습니다
MCP 서버를 연결했을 뿐인데 Pro 한도가 평소보다 훨씬 빨리 사라진다면, 구조적인 이유가 있습니다. 공식 수치를 직접 확인했습니다.
Pro·Max 통합 한도 함정
Desktop ↔ Code 한도 공유
MCP를 연결하는 순간 이미 토큰이 나간다
Claude Sonnet 4.6에 MCP 서버를 연결하고 있다면, 첫 메시지를 보내기 전부터 토큰이 소비되고 있습니다. GitHub MCP 서버 하나만 붙여도 해당 서버가 제공하는 모든 도구 정의(tool definitions)가 세션 시작 시점에 컨텍스트 윈도우로 통째로 로드됩니다. GitHub MCP 서버에는 기본적으로 35개의 도구가 포함돼 있고, 이것만으로도 상당한 토큰이 대화 시작 전에 사용됩니다.
이 구조는 Claude가 “어떤 도구를 쓸 수 있는지” 미리 파악하기 위해 설계된 것이지만, 결과적으로 200K 컨텍스트 윈도우 중 상당 부분이 대화 내용이 아닌 도구 목록으로 먼저 채워집니다. MCP 서버를 여러 개 연결할수록 이 선소비 규모는 빠르게 불어납니다.
한도가 생각보다 빨리 닳는다고 느꼈다면 착각이 아닙니다. 실제로 2026년 3월 Reddit과 커뮤니티에서 “Claude Code를 켠 지 10분 만에 사용 제한에 걸렸다”는 보고가 여러 건 올라왔고, 그 원인 중 하나가 바로 이 MCP 도구 정의 로드입니다.
55,000 토큰이 대화 시작 전에 사라지는 구조
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
Anthropic은 도구 정의 선소비 문제를 Engineering Blog에서 직접 수치로 공개했는데, 대부분의 블로그가 이 수치를 기반으로 실제 Pro 한도와 연결지어 설명하지 않고 있습니다.
Anthropic Engineering Blog에 공식 발표된 수치를 보겠습니다. GitHub 35개 도구, Slack 11개 도구 등 5개 서버를 연결하면 총 58개 도구가 약 55,000 토큰을 대화 시작 전에 소비합니다. (출처: Anthropic Engineering Blog, “Advanced Tool Use”)
Jira 같은 도구 수가 많은 서버를 하나 더 추가하면 선소비 토큰이 100,000개를 쉽게 넘습니다. 내부적으로는 도구 정의만으로 134,000 토큰이 소비된 사례도 공식 자료에서 확인됩니다. Claude Sonnet 4.6의 컨텍스트 윈도우는 200K인데, 도구 정의만으로 절반 이상이 채워지는 상황입니다.
| 구성 | 도구 수 | 선소비 토큰(약) | 200K 대비 비율 |
|---|---|---|---|
| GitHub 단독 | 35개 | 약 20,000 | 10% |
| GitHub + Slack (5개 서버) | 58개 | 약 55,000 | 27.5% |
| Jira 추가 시 | 80개+ | 100,000+ | 50%+ |
| 실제 보고 사례(20~30개 도구) | 20~30개 | 73,900 | 37% |
(출처: Anthropic Engineering Blog “Advanced Tool Use” / GitHub Issue #12836 사용자 보고)
실제 사용자가 보고한 사례 중에는 도구 20~30개짜리 MCP 서버에서 73,900 토큰이 선소비됐는데, 그중 53,000 토큰(전체의 72%)이 그 세션에서 한 번도 실제 호출되지 않은 도구에 낭비됐습니다. 쓰지도 않을 도구 목록이 먼저 자리를 차지하고, 실제 작업 공간은 줄어드는 구조입니다.
Desktop에서 돌리면 Code 한도까지 깎이는 이유
💡 Claude Desktop, claude.ai, Claude Code — 세 곳의 사용량이 하나의 버킷으로 집계됩니다
이 부분을 모르고 Desktop에서 MCP 작업을 무겁게 돌리다가 Code 쪽 한도가 갑자기 사라지는 경험을 하는 경우가 생깁니다.
Anthropic 공식 지원 문서에 직접 나와 있습니다. “모든 다양한 Claude 제품 표면(claude.ai, Claude Code, Claude Desktop)의 사용량이 동일한 사용 제한에 포함된다.” (출처: Anthropic Support, “사용량 및 길이 제한은 어떻게 작동하나요?”) 즉, Claude Desktop에서 MCP 서버를 통해 작업을 돌리면 그 토큰 소비가 Claude Code의 남은 한도를 같이 깎아내립니다.
Claude Desktop에서 로컬 MCP 서버를 연결하고 무거운 파일 처리 작업을 한 뒤, Claude Code로 넘어가서 코딩을 시작하려고 하면 “사용 한도에 도달했습니다” 메시지를 마주칠 수 있습니다. Desktop에서 이미 한도를 소진했기 때문인데, 사용자는 두 제품이 별개라고 생각하기 때문에 혼란스러울 수밖에 없습니다.
원격 커넥터(claude.ai 웹 기반 MCP)를 쓰는 경우도 마찬가지입니다. claude.ai 웹에서 원격 MCP 커넥터를 통해 GitHub나 Notion을 연결하고 리서치 작업을 돌리면, 그 사용량도 동일한 통합 한도 버킷에서 차감됩니다. 플랫폼이 달라도 한도는 하나입니다.
Pro vs Max, MCP를 쓰면 배율이 달라진다
Anthropic 공식 안내에 따르면 Max 플랜은 Pro 대비 5배(Max 5x) 또는 20배(Max 20x) 더 많은 사용 허용량을 제공합니다. 이 배율은 “대화 기반” 일반 사용을 기준으로 한 수치입니다. 그런데 MCP를 연결하면 실질적인 배율이 달라집니다.
MCP 도구 정의 선소비는 대화 길이와 무관하게 세션마다 발생합니다. Pro 플랜에서 5개 MCP 서버를 연결하면 세션 시작마다 55,000 토큰이 고정으로 나가고, 그 위에 실제 대화가 쌓입니다. Max 플랜으로 업그레이드해도 선소비 구조 자체는 동일하기 때문에, “MCP 작업”에서 체감하는 한도 차이는 단순 배율보다 작습니다. Pro에서 MCP 작업이 5분 만에 막힌다면, Max 5x라도 25분에 막힐 뿐 근본 구조는 같습니다.
절대적인 한도 수치는 Anthropic이 공개하지 않고 있습니다. 공식 안내에도 “수요에 따라 달라진다”고 명시돼 있어 플랜별 정확한 토큰 상한선은 비공개입니다. (출처: GeekNews 인용 Anthropic 공식 안내) 다만 Pro → Max 업그레이드로 한도 문제가 완전히 해결된다고 기대하면, MCP를 무겁게 쓸수록 그 기대가 빗나갑니다.
한도를 지키면서 MCP를 쓰는 실용적인 방법
💡 같은 도구를 통합하는 것만으로 도구 설명 토큰을 60% 줄인 실제 사례가 있습니다
도구 수를 줄이거나 설명을 간소화하는 것이 플랜 업그레이드보다 더 직접적인 효과를 낼 수 있습니다.
① 쓰지 않는 MCP 서버 비활성화
Claude Code CLI에서 세션 내에 /mcp disable [서버명] 명령으로 현재 작업에 필요 없는 서버를 즉시 비활성화할 수 있습니다. 서버당 10,000 토큰 이상을 절약합니다. (출처: Claude Code CLI 공식 문서)
② 유사 도구를 하나로 통합
개발자라면 유사 기능 도구 3개를 파라미터로 구분하는 도구 1개로 합치는 방식을 고려할 수 있습니다. 실제로 도구 20개를 8개로 줄이는 것만으로 14,214 토큰에서 5,663 토큰으로 60% 감소를 달성한 사례가 있습니다. (출처: Scott Spence 블로그 실측, 갓대희 티스토리 인용)
③ 작업 유형별 MCP 구성 파일 분리
코딩 작업용, 리서치 작업용, 데이터 분석용으로 MCP 설정 파일을 분리해 두고, 세션 시작 시 필요한 구성 파일만 불러오면 선소비 토큰을 30~60% 줄일 수 있습니다.
④ API 사용자라면 지연 로드(defer_loading) 활성화
Anthropic API를 직접 호출하는 개발자라면, 도구 정의에 defer_loading: true를 설정해 지연 로드를 활성화하면 약 85% 토큰 절감이 가능합니다. 다만 이 기능은 Claude Code CLI에서는 아직 미지원 상태입니다. API 직접 호출 환경에서만 사용 가능합니다. (출처: Anthropic Engineering Blog, 2026.03 기준)
로컬 확장 vs 원격 커넥터, 어느 쪽이 유리할까
Claude는 MCP를 연결하는 방식이 두 가지입니다. Claude Desktop 앱에서 로컬에 설치한 MCP 서버를 연결하는 방식(로컬 데스크톱 확장)과, claude.ai 웹 또는 claude.ai 앱에서 원격 MCP 서버에 OAuth로 연결하는 방식(원격 커넥터)입니다.
로컬 방식은 파일 시스템이나 로컬 데이터베이스처럼 로컬에만 있는 자원에 접근할 때 적합합니다. 반면 원격 커넥터는 GitHub, Notion, Google Drive, Slack처럼 인터넷에 호스팅된 서비스를 연결할 때 쓰는 방식입니다. Anthropic 공식 문서에 따르면 원격 MCP 커넥터(커스텀 커넥터)는 Free를 포함한 모든 플랜에서 사용 가능합니다. (출처: Anthropic Support, “원격 MCP를 사용하여 사용자 정의 커넥터 시작하기”)
| 구분 | 로컬 데스크톱 확장 | 원격 커넥터 |
|---|---|---|
| 설치 위치 | 내 컴퓨터 | 인터넷(외부 서버) |
| 적합한 자원 | 로컬 파일, DB | GitHub, Notion, Slack |
| 여러 기기 사용 | ❌ 불가 | ✅ 가능 |
| 한도 공유 여부 | 양쪽 모두 동일 한도 풀 사용 | |
| 보안 설정 | 로컬 제어 | OAuth 인증 |
솔직히 말하면, 한도 측면에서 로컬과 원격 중 어느 쪽이 “더 유리하다”고 단정 짓기 어렵습니다. 둘 다 동일한 한도 버킷을 씁니다. 차이는 연결하는 서버의 도구 수와 작업 규모에 달려 있습니다. GitHub처럼 도구가 많은 서버를 붙이면 방식에 무관하게 선소비 토큰이 큽니다. 가벼운 단일 목적 MCP 서버를 원격으로 연결하는 쪽이 도구 수를 통제하기 쉽다는 실용적 장점은 있습니다.
Q&A
Q1. MCP 서버를 연결하지 않으면 이 선소비 토큰 문제가 없나요?
맞습니다. MCP 서버를 연결하지 않으면 도구 정의 선소비는 발생하지 않습니다. 일반 Claude 대화는 컨텍스트 윈도우를 대화 내용으로만 채웁니다. MCP를 연결하는 순간부터 서버의 도구 목록이 세션 초기화 시 자동으로 로드됩니다.
Q2. claude.ai 웹에서 원격 커넥터를 쓰는 것과 Claude Desktop에서 로컬 MCP를 쓰는 것, 한도 소모 방식이 같나요?
한도 집계 방식은 동일합니다. Anthropic 공식 문서에 따르면 claude.ai, Claude Code, Claude Desktop 세 곳의 사용량이 동일한 사용 제한에 포함됩니다. 단, 연결하는 MCP 서버의 도구 수에 따라 실제 소모 속도가 달라질 수 있습니다.
Q3. Pro에서 Max로 업그레이드하면 MCP 사용 문제가 해결되나요?
한도가 늘어나는 것은 맞습니다(5배 또는 20배). 다만 MCP 도구 정의 선소비 구조는 동일하게 적용됩니다. 도구 수가 많은 서버를 여러 개 연결한 상태라면 Max로 업그레이드해도 한도 소모가 예상보다 빠르게 느껴질 수 있습니다. 선소비 문제를 먼저 최적화하는 것이 우선입니다.
Q4. defer_loading 기능을 Claude Code CLI에서도 쓸 수 있나요?
2026년 3월 현재 기준으로는 Claude Code CLI에서 공식 미지원 상태입니다. 이 기능은 Anthropic API를 직접 호출하는 개발자 환경에서만 베타로 제공됩니다. 커뮤니티에서 CLI 지원을 공식 요청 중이며(GitHub Issue #12836), 향후 지원 여부는 Anthropic이 아직 공식 답변을 내놓지 않은 부분입니다.
Q5. Free 플랜에서도 원격 MCP 커넥터를 쓸 수 있나요?
Anthropic 공식 지원 문서에 따르면, 원격 MCP를 사용하는 커스텀 커넥터는 Free 플랜을 포함한 모든 플랜에서 사용 가능합니다. 단, Free 플랜의 전체 사용 한도가 낮기 때문에 MCP 도구 정의 선소비로 인한 영향이 더 크게 느껴집니다.
마치며
Claude Sonnet 4.6에 MCP 서버를 연결하는 건 강력한 선택입니다. GitHub, Notion, Slack을 Claude가 직접 읽고 쓸 수 있게 되면 작업 흐름이 완전히 달라집니다. 그런데 막상 써보니 한도가 생각보다 빨리 닳는다면, 그건 연결 자체가 문제가 아니라 도구 정의 선소비 구조를 인지하지 못한 채 쓰고 있기 때문일 가능성이 높습니다.
핵심 포인트를 다시 정리하면, 5개 MCP 서버만 연결해도 대화 시작 전에 약 55,000 토큰이 자동으로 소비되고, claude.ai·Claude Code·Claude Desktop의 사용량은 하나의 한도 버킷에서 함께 차감됩니다. Max 플랜으로 올려도 이 구조는 동일합니다. 쓰지 않는 서버를 비활성화하고, 작업별로 MCP 구성을 분리해 두는 것만으로도 체감 한도가 크게 달라집니다.
이 부분이 정리됐다면, 이제 MCP는 한도를 갉아먹는 도구가 아니라 제대로 제어할 수 있는 도구가 됩니다.
본 포스팅 참고 자료
- Anthropic 공식 MCP 소개 — https://www.anthropic.com/news/model-context-protocol
- Anthropic Support — 사용량 및 길이 제한 공식 문서 — https://support.claude.com/ko/articles/11647753
- Anthropic Support — 원격 MCP 커스텀 커넥터 공식 문서 — https://support.claude.com/ko/articles/11175166
- Anthropic Engineering Blog — Advanced Tool Use — https://www.anthropic.com/engineering/advanced-tool-use
- MCP 공식 스펙 문서 (2025-03-26) — https://modelcontextprotocol.io/specification/2025-03-26
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 한도 수치 및 기능 지원 여부는 2026년 3월 21일 기준이며, Anthropic의 업데이트에 따라 달라질 수 있습니다. 정확한 최신 정보는 Anthropic 공식 지원 문서를 참고하시기 바랍니다.


댓글 남기기