RSP v3.0 공식 발표
Anthropic RSP 3.0, 안전 약속이 바뀐 진짜 이유
Anthropic이 2026년 2월 24일, 창립 이후 3년 가까이 유지해온 핵심 안전 서약을 공식 폐기했습니다.
“안전 조치를 보장할 수 없으면 훈련을 멈춘다”는 절대 원칙이 사라진 자리에 새로 들어온 것은
경쟁사 행동에 연동된 조건부 약속과 분기별 리스크 보고서입니다.
공식 문서를 직접 읽고 나니, 단순한 후퇴가 아니라 구조 자체가 달라졌습니다.
원래 약속이 뭐였는지 먼저 봐야 합니다
Anthropic RSP 3.0의 변화를 제대로 읽으려면 원래 약속이 어떤 구조였는지부터 봐야 합니다.
2023년 9월 RSP v1.0에서 Anthropic이 공식적으로 내건 핵심 원칙은 딱 하나였습니다.
“적절한 안전 조치를 사전에 보장할 수 없으면, 새 모델 훈련 자체를 진행하지 않는다.”
이 약속의 구조가 if-then 조건부 서약이었습니다. 특정 위험 역량 기준을 넘으면(if),
반드시 상응하는 안전 조치를 먼저 갖춰야만 다음 단계로 갈 수 있다(then)는 방식입니다.
위험 역량 기준에는 생물·화학 무기 제조 보조, 자율적 사이버 공격 등이 포함됐고,
각 기준에는 ASL(AI Safety Level)-2, ASL-3 같은 구체적인 보호 등급이 매핑돼 있었습니다.
2025년 5월에는 실제로 ASL-3 보호 조치를 활성화했습니다.
생물학적 무기 관련 출력을 차단하는 Constitutional Classifiers가 대표적 사례입니다.
(출처: Anthropic 공식 블로그, 2025.05)
즉 v1~v2 체계는 실제로 한 번은 작동했습니다. 문제는 그 다음 단계였습니다.
💡 공식 문서와 실제 이력을 나란히 놓으면 이런 그림이 나옵니다:
v1(2023.09) → v2.0(2024.10) → v2.1(2025.03) → v2.2(2025.05, ASL-3 활성화) → v3.0(2026.02.24).
총 다섯 번 개정됐는데, 핵심 서약이 사라진 건 마지막 v3.0에서 처음입니다.
(출처: RSP v3.0 Changelog, anthropic.com/responsible-scaling-policy/rsp-v3-0)
멈추는 게 더 위험하다는 논리
Anthropic이 핵심 서약을 바꾼 이유로 공식 문서에서 직접 꺼낸 표현이 있습니다.
“If one AI developer paused development to implement safety measures while others moved forward…
that could result in a world that is less safe.”
한 회사가 멈추면, 안전 조치가 없는 다른 개발사들이 페이스를 설정하게 되고,
결국 책임 있는 개발사는 안전 연구 능력 자체를 잃는다는 논리입니다.
(출처: RSP v3.0 Introduction, anthropic.com/responsible-scaling-policy/rsp-v3-0)
이 논리는 언뜻 납득이 됩니다. 하지만 공식 원문을 끝까지 읽으면 인정하기 불편한 문장이 하나 더 있습니다.
Anthropic의 수석 과학자 Jared Kaplan이 TIME 인터뷰에서 한 말입니다.
“We didn’t really feel, with the rapid advance of AI, that it made sense for us to make unilateral commitments
if competitors are blazing ahead.”
(출처: TIME, 2026.02.24)
요약하면 경쟁사가 달리고 있는데 혼자 멈추는 건 의미 없다는 겁니다.
⚠️ 여기서 생각해볼 포인트: 이 논리는 사실 RSP가 처음 만들어진 이유와 정반대입니다.
2023년에 Anthropic이 RSP를 내건 핵심 근거 중 하나가 “업계 최고 수준을 향한 경쟁(race to the top)”이었습니다.
우리가 먼저 높은 기준을 세우면 다른 회사들도 따라온다는 가정이었는데,
이제 그 전제가 깨졌다고 공식 인정한 셈입니다.
실제로 기대와 달리 흘러간 부분이 하나 더 있었습니다.
AI 역량 평가 과학이 예상보다 훨씬 불명확했다는 점입니다.
Anthropic의 설명에 따르면, 자사 모델이 생물 무기 제조를 도울 수 있는지 아닌지를
현재의 평가 방법론으로는 “명확하게 넘었다”거나 “명확하게 안 넘었다”고 말할 수가 없다고 합니다.
넘었을 수도, 안 넘었을 수도 있는 모호한 구역에 계속 머물고 있다는 것입니다.
이 상태에서는 외부에 “지금 위험하다”는 강력한 주장을 펼치기도 어렵고,
결과적으로 규제 당국이나 경쟁사를 움직이는 레버로 RSP 임계값을 활용하는 것 자체가 불가능해졌습니다.
Pentagon 압박과 RSP 3.0이 같은 날 나온 맥락
RSP 3.0 공식 발표는 2026년 2월 24일이었습니다.
그런데 Engadget과 Axios의 보도에 따르면, 정확히 같은 날 미 국방부 장관 Pete Hegseth가
Anthropic에 압박을 가했다는 소식이 터졌습니다.
군이 Claude를 무제한으로 활용할 수 있도록 허용하지 않으면 불이익을 주겠다는 내용이었습니다.
(출처: Engadget, 2026.02.25 / Axios, 2026.02.24)
Claude는 당시 미군 최고 기밀 업무에 사용되던 유일한 AI 모델이었습니다.
Axios 보도에는 국방부 관계자의 발언이 직접 인용돼 있습니다.
“The only reason we’re still talking to these people is we need them and we need them now.”
군이 필요로 할 만큼 뛰어나지만, 그만큼 통제하고 싶다는 뜻입니다.
Anthropic은 대량 감시와 인간 관여 없는 무기 시스템에는 여전히 응하지 않겠다는 입장을 유지했지만,
RSP 3.0 발표 자체가 이 압박과 시간적으로 겹쳤다는 사실은 공식 문서 어디에도 언급되지 않았습니다.
💡 공식 발표문과 동일 날짜의 보도를 같이 놓으면 보이는 것:
Anthropic은 RSP 3.0 변경 이유로 “경쟁 환경”, “평가 과학의 불확실성”, “반규제 정치 환경”을 들었습니다.
Pentagon 압박은 어떤 공식 자료에도 등장하지 않습니다.
Anthropic이 공식 답변을 내놓지 않은 부분입니다.
당시 Anthropic의 재정 상황도 함께 보면 그림이 좀 더 선명해집니다.
2026년 2월, Anthropic은 Series G 라운드에서 300억 달러를 조달해 기업가치 3,800억 달러를 기록했습니다.
연간 매출 성장률은 10배 수준이라고 회사 측이 직접 밝혔습니다.
(출처: Anthropic 공식 보도자료, 2026.02 / TIME, 2026.02.24)
성장하는 기업이 고객 기반에서 가장 큰 단일 사용처를 잃을 위험에 무감각하기는 어렵습니다.
경쟁사 행동에 연동된 조건부 안전 구조
RSP 3.0에서 새로 도입된 구조 중 기존 요약 글들이 거의 다루지 않은 부분이 있습니다.
공식 문서 Appendix A에 담긴 “Commitments Related to Competitors”입니다.
핵심 서약이 사라진 자리에 절대적 약속 대신 들어온 것이 이 경쟁사 연동형 구조입니다.
| 시나리오 | Anthropic의 약속 |
|---|---|
| Anthropic이 독주 중이고 경쟁사 고능력 모델이 없을 때 | 리스크 억제 강력 논증 필요. 달성 전까지 개발·배포 지연 |
| 모든 경쟁 고능력 모델 보유사가 강력한 안전 조치를 갖춘 때 | Anthropic도 동급 이상의 리스크 감소 자세 유지. 미달 시 개발 지연 |
| 경쟁사가 의미 있는 리스크 감소 조치를 먼저 도입한 때 | 해당 기준 도달을 위해 노력. 단, 개발 지연 의무는 없음 |
(출처: RSP v3.0 Appendix A, anthropic.com/responsible-scaling-policy/rsp-v3-0)
솔직히 말하면, 이 구조는 v1·v2보다 훨씬 복잡하고 현실적입니다. 하지만 동시에 훨씬 느슨합니다.
“강력한 안전 조치”가 무엇인지, “독주”를 어떻게 판정하는지, 이 모든 판단을 Anthropic 스스로 합니다.
외부 기관이 판정 권한을 갖지 않고, 독립적 감사가 의무화된 조건도 이 표에는 없습니다.
v2에 있었던 “특정 역량 임계값을 넘으면 자동으로 ASL-4 기준이 발동된다”는 명확한 트리거가
이번 버전에서는 빠졌습니다. Appendix B에 보면 Anthropic 스스로 인정합니다.
“defining ASLs with specific lists of controls is overly rigid.”
(출처: RSP v3.0 Appendix B)
Frontier Safety Roadmap, 기한이 박혀 있습니다
RSP 3.0 공식 발표 글에는 Frontier Safety Roadmap이 새로운 “강제 장치(forcing function)”라고 나옵니다.
기한이 구체적으로 박혀 있다는 점은 대부분의 요약 글에서 생략됐는데, 직접 확인하니 이런 목표들이 있습니다.
| 목표 | 기한 | 분야 |
|---|---|---|
| 보안 문샷 R&D 프로젝트 착수 | 2026.04.01 | Security |
| 데이터 보존 원칙 수립 | 2026.04.01 | Safeguards |
| 정책 입안자 대상 로드맵 공개 | 2026.07.01 | Policy |
| Claude Constitution 체계적 준수 평가 | 2026.10.01 | Alignment |
| 세계 수준 내부 레드팀 구축 | 2027.01.01 | Safeguards |
| “모든 것을 감시” 내부 환경 구축 | 2027.01.01 | Cross-cutting |
| 전면 보안 강화 | 2027.07.01 | Security |
(출처: Anthropic Frontier Safety Roadmap, anthropic.com/responsible-scaling-policy/roadmap, 2026.02.22 기준)
기한이 있다는 건 좋은 신호입니다. 그런데 공식 문서에 이런 문장도 나옵니다.
“These are not hard commitments but rather public goals against which we will openly grade our progress.”
(출처: RSP v3.0, Section 2)
공개적으로 성적을 매기겠다는 건 투명하다는 장점이 있지만,
달성 못 해도 구속력이 없다는 뜻이기도 합니다.
특히 세계 수준 레드팀 목표 기준이 흥미롭습니다.
“수백 명이 참여한 버그 바운티 프로그램의 집단 기여보다 더 높은 성능”이 공식 목표입니다.
현재 버그 바운티가 어느 수준인지 공개된 수치가 없어서, 이 기준의 실질적 높낮이를 외부에서 판단하기는 어렵습니다.
💡 로드맵 기한을 오늘 날짜(2026.03.23)와 대조하면:
2026년 4월 1일 마감인 “보안 문샷 프로젝트 착수”와 “데이터 보존 원칙 수립”이 약 9일 후입니다.
Anthropic이 이 두 목표를 어떻게 보고하는지가 RSP 3.0 약속 이행의 첫 번째 실질적 점검 기회가 됩니다.
외부 전문가들은 어떻게 봤나
AI 안전 평가 비영리기관 METR의 정책 디렉터 Chris Painter는 TIME을 통해 두 가지를 동시에 말했습니다.
투명한 리스크 보고와 공개 검증 가능한 로드맵은 긍정적으로 봤습니다.
하지만 이진법 임계값이 사라지면서 생기는 문제도 지적했습니다.
그가 쓴 표현이 “frog-boiling effect”입니다. 물이 서서히 끓을 때 개구리가 뛰어나오지 못하는 것처럼,
안전이 흑백 선이 아닌 회색 구역이 되면 합리화의 연쇄가 시작될 수 있다는 우려입니다.
그는 이번 RSP 3.0 변화가 “Anthropic이 지금 트리아지(응급 처치) 모드로 전환해야 한다고 판단한 증거”라고 했습니다.
즉, 역량 평가 방법이 역량 발전 속도를 따라가지 못하고 있다는 현실을 Anthropic 스스로 인정했다는 해석입니다.
(출처: TIME, 2026.02.24)
한편 Anthropic 측은 RSP 3.0이 후퇴가 아니라고 선을 그었습니다.
Kaplan은 “If all of our competitors are transparently doing the right thing when it comes to catastrophic risk,
we are committed to doing as well or better.”라고 했습니다.
(출처: TIME, 2026.02.24)
경쟁사들이 투명하게 제대로 하면 우리도 그 이상 하겠다는 건데,
“경쟁사들이 제대로 하는지”를 누가 판정하느냐는 여전히 Anthropic 자신입니다.
자주 묻는 질문
마치며
RSP 3.0을 공식 문서 기준으로 읽으면, 이건 단순한 후퇴가 아닙니다.
구조 자체가 달라졌습니다. 절대 원칙 → 조건부 원칙, 임계값 자동 트리거 → 자체 판단,
멈춤 약속 → 투명성 약속. 이 세 가지가 동시에 바뀌었습니다.
솔직히 Anthropic의 논리에 완전히 납득이 안 되는 건 아닙니다.
혼자 멈춘다고 세상이 안전해지는 게 아니라는 주장은 현실적으로 틀리지 않습니다.
하지만 그 논리가 맞다면, 3년 전 RSP를 만들 때 왜 틀렸는지에 대한 설명이 더 있었어야 했습니다.
공식 문서는 “예상보다 어려웠다”는 인정은 있지만, “그래서 핵심 서약이 애초에 가능한 약속이었는가”
에 대한 답은 없습니다.
앞으로 주목할 지점은 딱 두 가지입니다.
9일 후인 2026년 4월 1일, 보안 문샷 R&D와 데이터 보존 원칙에 대한 공개 업데이트가 나오는지.
그리고 분기별 리스크 보고서가 실제로 비편집 수준의 정보를 담는지입니다.
약속이 달라졌다고 해서 의미가 없어진 건 아닙니다. 다만 이번엔 기한이 있으니, 지켜볼 수 있습니다.
이 글의 한 줄 요약
Anthropic RSP 3.0은 “안전이 우선”에서 “경쟁 환경 속 안전”으로 프레임이 이동했고,
그 실질적 첫 번째 시험대는 2026년 4월 1일입니다.
본 포스팅 참고 자료
-
Anthropic 공식 블로그 — Responsible Scaling Policy Version 3.0
https://www.anthropic.com/news/responsible-scaling-policy-v3 -
Anthropic 공식 문서 — RSP v3.0 전문 (PDF)
https://anthropic.com/responsible-scaling-policy/rsp-v3-0 -
Anthropic 공식 문서 — Frontier Safety Roadmap
https://anthropic.com/responsible-scaling-policy/roadmap -
TIME — “Exclusive: Anthropic Drops Flagship Safety Pledge” (2026.02.24)
https://time.com/7380854/exclusive-anthropic-drops-flagship-safety-pledge/ -
Engadget — “Anthropic weakens its safety pledge in the wake of the Pentagon’s pressure campaign” (2026.02.25)
https://www.engadget.com/ai/anthropic-weakens-its-safety-pledge-in-the-wake-of-the-pentagons-pressure-campaign-183436413.html
※ 본 포스팅은 2026년 2월 24일 발표된 Anthropic RSP v3.0 기준으로 작성됐습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
수치·정책 등은 Anthropic 공식 문서를 통해 최신 버전을 확인하시기 바랍니다.

댓글 남기기