Claude Mythos, 공개도 전에 뭔가 이상합니다
Anthropic이 스스로 만든 도구로 자신의 유출을 더 쉽게 발견할 수 있는 세상이 됐습니다. 이 아이러니가 Mythos 사태의 핵심입니다.
유출 사고는 어떻게 벌어졌나
2026년 3월 26일 목요일, 두 명의 보안 연구자가 독립적으로 같은 문제를 발견했습니다. Anthropic의 콘텐츠 관리 시스템(CMS)이 공개 접근 설정으로 잘못 구성돼 있었고, 약 3,000개의 내부 파일이 인증 없이 누구나 검색할 수 있는 상태였습니다. (출처: Fortune, 2026.03.26)
파일 안에는 미공개 블로그 초안, PDF, 내부 메모 — 그리고 Claude Mythos라는 이름이 붙은 차세대 모델 발표 문서가 포함돼 있었습니다. Anthropic은 제보를 받은 뒤 수 시간 안에 접근을 차단했지만, 이미 스크린샷이 보안 포럼과 SNS에 퍼진 뒤였습니다.
Anthropic의 공식 입장은 이렇습니다. “유출된 파일은 발표 전 초안 상태의 콘텐츠이며, 최종 공개 내용과 다를 수 있습니다.” 동시에 모델의 존재와 ‘역대 가장 뛰어난 모델’이라는 평가는 공식 확인했습니다. 이름과 벤치마크 수치는 여전히 미확인 상태입니다.
Mythos가 Opus 4.6과 다른 이유
Claude의 기존 모델 계층은 Haiku → Sonnet → Opus 순서였습니다. Mythos는 이 구조 위에 올라가는 별도의 티어로, 내부 코드명은 Capybara입니다. 단순히 Opus 4.6의 다음 버전(Opus 4.7 등)이 아니라 완전히 다른 명명 체계를 사용한다는 점이 유출 문서에서 가장 눈에 띄는 부분입니다. (출처: MindStudio, 2026.03)
유출 문서가 주장한 수치 중 가장 구체적인 것은 코딩 벤치마크입니다. Opus 4.6의 SWE-bench Verified 점수는 공개 기준 약 72~73%입니다. Mythos의 유출 수치는 이보다 12~15%포인트 높은 85~88%대라고 알려졌습니다. (출처: MindStudio 분석, 2026.03 / WaveSpeed AI, 2026.03.29)
추론 능력도 올랐습니다. 대학원 수준 과학 문제를 테스트하는 GPQA Diamond에서 Opus 4.6은 현재 74~79%대에 머물러 있습니다. 유출 문서는 Mythos가 저~중간 80%대로 진입한다고 주장합니다. 컨텍스트 연산이 누적되는 긴 에이전트 작업에서 수학 오류가 줄어든다는 뜻입니다.
| 벤치마크 | Opus 4.6 (공식) | Mythos (유출 추정) | 출처 |
|---|---|---|---|
| SWE-bench Verified | 약 72~73% | 약 85~88% | MindStudio, 2026.03 |
| GPQA Diamond | 약 74~79% | 약 80~84% | WaveSpeed AI, 2026.03.29 |
| 사이버보안 능력 | 업계 상위권 | “타 모델과 격이 다름” | 유출 내부 문서 |
※ Mythos 수치는 유출 내부 문서 기반 추정값. 독립 검증 전까지 방향성 참고용으로만 볼 것.
사이버보안 수치, 직접 따져봤습니다
유출 문서에서 가장 충격적인 문장은 이겁니다. “Mythos는 현재 사이버 능력에서 다른 어떤 AI 모델보다 훨씬 앞서 있으며, 취약점을 방어자가 대응할 수 있는 속도를 훨씬 넘어선 방식으로 악용할 수 있는 모델의 등장을 예고한다.” (출처: 유출 내부 문서, Fortune 2026.03.26 독립 검증)
더 놀라운 맥락이 있습니다. 이미 Opus 4.6 단계에서도 상황이 조용하지 않았습니다. Anthropic의 Opus 4.6 Sabotage Risk Report는 “ASL-4 자율성 임계값을 깨끗하게 배제하기 어려운 회색 지대에 처했다”고 인정했습니다. (출처: Hybrid Horizons, 2026.03.29) ASL-4는 Anthropic의 안전 등급 체계(AI Safety Levels)에서 현재 정의된 가장 높은 위험 단계입니다. (출처: Anthropic Responsible Scaling Policy 공식 문서)
즉 Mythos 이전 모델부터 이미 경계선에 접근했다는 Anthropic 자체 평가가 존재합니다. Mythos는 그 이후에 나온 모델입니다. 현재 시장 반응이 이를 반영했습니다. 유출 직후 Palo Alto Networks, Crowdstrike, Fortinet 주가는 4~6% 급락했고, iShares Expanded Tech-Software Sector ETF(IGV)는 2.5% 하락했습니다. (출처: CoinDesk, 2026.03.27) 주가 하락은 바로 이 숫자가 실제로 의미하는 바를 시장이 읽었다는 신호입니다.
추가로 확인된 사실이 하나 더 있습니다. Anthropic은 유출 전 별도 보고서에서 중국 국가 지원 위협 그룹이 Claude Code를 이용해 기술 기업·금융 기관·정부 기관 약 30곳에 침투를 시도한 캠페인을 탐지하고 차단했다고 밝혔습니다. (출처: WaveSpeed AI, 2026.03.29) 이 사건이 Mythos 출시 전략을 보수적으로 설계하는 데 직접 영향을 줬다고 봐야 합니다.
비쌀수록 격차가 벌어지는 구조
유출 문서가 반복해서 강조한 단어가 있습니다. ‘비싸다(expensive)’. Mythos는 운영 비용이 비싸고, Opus보다 비싸며, 일반 공개 준비가 안 됐다는 표현이 문서 안에 여러 번 나왔습니다. (출처: Hybrid Horizons, 2026.03.29)
실제 출시 계획은 이렇게 설명됐습니다. 사이버보안 파트너(검증된 보안 연구자·방어 조직) → API 및 엔터프라이즈 플랜 → 일반 공개 순서입니다. 이는 Anthropic의 RSP가 요구하는 단계별 배포와 일치합니다. 문제는 ‘단계별 출시’가 동시에 ‘단계별 접근 격차’이기도 하다는 점입니다. 먼저 접근하는 기업은 Mythos로 자신의 시스템을 먼저 강화합니다. 기다리는 조직은 상대적으로 더 노출된 상태가 됩니다.
Bloomberg과 The Information은 유출 당일 Anthropic이 이르면 2026년 10월 IPO를 검토 중이라고 보도했습니다. ‘역대 가장 강력한 모델’이라는 서사는 기술 발표이자 기업가치 서사이기도 합니다. 이 맥락을 함께 보지 않으면 Mythos를 절반만 이해하는 겁니다. (출처: Hybrid Horizons, 2026.03.29)
공개 전부터 테스트 중이라는 것의 의미
Anthropic은 유출 직후 성명에서 “소수의 얼리 액세스 고객과 함께 테스트 중”이라고 확인했습니다. (출처: CoinDesk, 2026.03.27) 이 말을 뒤집으면, 일반 사용자가 모델의 존재조차 모르는 동안 특정 기업 파트너는 이미 실사용 경험을 쌓고 있다는 뜻입니다. 유출이 없었다면 대부분의 사람들은 공식 발표 때까지 아무것도 몰랐을 것입니다.
또 하나 짚고 넘어갈 부분이 있습니다. Anthropic은 자사 모델이 사이버보안에 위험하다고 내부 문서에 기록했습니다. 그런데 그 문서가 공개된 방식은 보안 연구자들이 Anthropic 자체 인프라의 잘못된 설정을 찾아냄으로써였습니다. Fortune은 이 발견이 AI 코딩 도구를 사용하면 이런 종류의 설정 오류를 훨씬 쉽게 찾을 수 있다는 점을 함께 지적했습니다. (출처: Fortune, 2026.03.26) Anthropic이 경고하는 바로 그 능력이, Anthropic의 보안 실수를 찾는 데도 쓰입니다.
Hybrid Horizons의 분석은 이를 더 직접적으로 표현합니다. “Anthropic은 아마도 현재 운영 중인 AI 안전 연구소 중 가장 신중한 곳일 것입니다. 그런 조직의 웹 퍼블리싱 파이프라인도 모델 개발 속도를 따라가지 못했다면, 빌딩과 거버닝 사이의 구조적 간격에 대해 뭔가를 말해준다.” (출처: Hybrid Horizons, 2026.03.29) 이건 Anthropic 비판이 아닙니다. 업계 전체가 공유하는 구조적 문제입니다.
유출 수치를 그대로 믿으면 안 되는 이유
솔직히 말하면, 지금까지 나온 수치는 전부 단서일 뿐입니다. 세 가지를 기억해 두는 게 좋습니다.
첫째, 출시 전 벤치마크는 바뀝니다. 훈련 중 평가된 수치가 실제 출시 모델의 수치와 다르게 나오는 경우는 흔합니다. SWE-bench 87%라는 숫자도 배포 시점에 올라갈 수도 있고, 내려갈 수도 있습니다. (출처: MindStudio, 2026.03)
둘째, 유출 문서는 마케팅 초안입니다. 기업이 신제품 발표 블로그 포스트를 쓸 때는 가장 좋게 보이는 벤치마크를 선택합니다. Mythos가 강점을 보이는 항목만 유출됐을 가능성이 있고, 약점 항목은 포함되지 않았을 수 있습니다.
셋째, “10조 파라미터” 숫자는 공식 확인이 안 됐습니다. SNS에서 빠르게 퍼진 이 수치는 유출 문서에도, Anthropic의 어떤 공식 발언에도 등장하지 않습니다. 현대 모델 아키텍처에서 파라미터 수는 성능의 신뢰할 만한 지표가 아니기도 합니다. (출처: Hybrid Horizons, 2026.03.29) 이 숫자를 인용하는 콘텐츠는 주의해서 읽어야 합니다.
Q&A
마치며
Claude Mythos를 둘러싼 논쟁은 두 개의 전혀 다른 지점에서 벌어지고 있습니다. 하나는 ‘얼마나 강력한가’이고, 다른 하나는 ‘누가 먼저 쓰는가’입니다. 벤치마크 수치보다 이 두 번째 질문이 장기적으로 더 중요할 수 있습니다.
Anthropic은 신중한 회사입니다. RSP를 갖고 있고, 내부적으로 위험을 경고하는 문서도 작성합니다. 그런데도 유출이 났고, 유출을 찾은 도구는 Anthropic 자신이 만든 것과 유사한 AI 도구였습니다. 이 아이러니는 웃어 넘길 문제가 아닙니다. 가장 안전 의식이 강한 곳도 자신이 만든 것을 완전히 통제하지 못하는 속도로 만들고 있다는 신호입니다.
개인적인 생각을 덧붙이면, 지금 단계에서 Mythos의 벤치마크 수치를 외우는 것보다 더 중요한 일이 있습니다. 이 모델이 공개됐을 때 자신이 방어자 측에 있는지, 아닌지를 판단할 능력을 키워두는 것입니다. AI 보안 리터러시는 이제 개발자만의 이야기가 아닙니다.
본 포스팅 참고 자료
- Anthropic 공식 — Responsible Scaling Policy: https://www.anthropic.com/responsible-scaling-policy
- Fortune — Anthropic Leaked AI Mythos Cybersecurity Risk (2026.03.27): fortune.com
- WaveSpeed AI — Claude Mythos (Opus 5) Leaked: What We Know So Far (2026.03.29): wavespeed.ai
- MindStudio — Claude Mythos vs Claude Opus 4.6: Capability Comparison (2026.03): mindstudio.ai
- Hybrid Horizons — The Singularity Arrived as a Security Incident (2026.03.29): hybridhorizons.substack.com
- CoinDesk — Anthropic’s massive ‘Claude Mythos’ leak (2026.03.27): coindesk.com
본 포스팅은 2026년 04월 01일 기준으로 공개된 정보를 바탕으로 작성됐습니다. Claude Mythos 관련 수치와 사양은 공식 출시 전 유출된 내부 초안에 근거하며, Anthropic의 공식 발표 전까지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 투자·보안 결정에 본 글을 단독 근거로 사용하지 마세요.











댓글 남기기