Anthropic RSP 3.0, 안전 서약 있던 자리

Published on

in

Anthropic RSP 3.0, 안전 서약 있던 자리

2026.02.24 기준 / RSP v3.0
Anthropic 공식 발표

Anthropic RSP 3.0, 안전 서약 있던 자리

2026년 2월 24일, Anthropic은 RSP(Responsible Scaling Policy) 3.0을 발표했습니다. 그런데 이날 동시에 터진 뉴스가 있었습니다. 미 국방부 장관 Pete Hegseth가 Anthropic에 Claude의 군사 제한 없는 사용을 허용하지 않으면 제재를 가하겠다고 경고했다는 Axios 보도였습니다. 우연의 일치인지, 구조적 결과인지 — 그게 이 글의 핵심입니다.

2026.02.24
RSP v3.0 발효일
3800억$
Anthropic 기업가치
v1→v3
2023년 이후 세 번째 개정

핵심부터 — 무엇이 사라졌나

Anthropic RSP 3.0에서 사라진 문장은 딱 하나입니다. 2023년 원본 RSP의 핵심 약속 — “안전 조치를 사전에 충분히 보장하지 못하면 AI 모델을 훈련하거나 배포하지 않겠다”는 그 문장입니다. 이 약속이 3년간 Anthropic을 ‘업계의 양심’으로 자리매김하게 한 근거였습니다.

새 정책은 이 이진 구조를 폐기했습니다. 대신 “Anthropic이 AI 경쟁 선두에 있으면서 동시에 재앙적 위험이 크다고 판단할 때만 개발을 지연(delay)할 수 있다”는 이중 조건으로 대체했습니다. (출처: Anthropic 공식 블로그, RSP v3.0 발표문, 2026.02.24) 이 두 조건이 동시에 충족되는 상황은 구조적으로 희귀합니다.

“will not train”이 “will delay”로 바뀌었고, 그 조건도 훨씬 느슨해졌습니다. 단어 하나의 교체가 정책 전체의 무게를 바꾼 것입니다.

RSP 1.0 때 그 서약, 사실 처음부터 조건부였습니다

많은 사람들이 “Anthropic이 2년 만에 약속을 깼다”고 반응했습니다. 그런데 공식 문서를 직접 보면 조금 다른 그림이 나옵니다.

💡 공식 발표문과 실제 정책 문서를 나란히 놓고 보면 이런 차이가 보였습니다.

RSP v2.0(2024년 10월)에는 이미 “경쟁사가 비슷한 기준 없이 임계값을 넘어서면 우리는 기준을 낮출 수 있다”는 escape clause가 각주에 들어가 있었습니다. (출처: Anthropic RSP v2.0 원문, GovAI 분석, 2026.03.05) 즉, 완전한 무조건 서약은 v1.0에서도 이미 누그러져 있었습니다. 이번 v3.0은 그 조건부 성격을 명시적으로 전면에 내세운 것입니다.

이게 왜 중요하냐면 — “처음부터 완전한 서약이 아니었다”는 사실은 Anthropic에 유리한 해석이기도 하지만, 동시에 “그 서약이 강력하다고 믿었던 사람들이 오해하도록 방치했다”는 비판을 피하기 어렵게 만듭니다. GovAI(Centre for the Governance of AI)는 이를 두고 “Anthropic이 약속을 실제보다 더 구속력 있는 것처럼 인상을 주면서 수정하지 않았다”고 지적했습니다. (출처: GovAI 분석 보고서, governance.ai, 2026.03.05)

결론적으로, 이번 변화는 U-턴이라기보다 이미 기울어져 있던 방향을 공개적으로 인정한 것에 가깝습니다.

대신 들어온 세 가지

Anthropic RSP 3.0이 기존 서약 대신 내놓은 카드는 세 가지입니다. 공식 PDF 원문을 기준으로 정리합니다. (출처: Anthropic RSP v3.0 전문, anthropic.com/responsible-scaling-policy/rsp-v3-0, 2026.02.24)

항목 내용 구속력
리스크 리포트 3~6개월마다 안전 평가 공개 절차적 의무
프론티어 안전 로드맵 보안·정렬·안전장치 목표 공표 비구속적 목표
경쟁사 상향 약속 경쟁사 기준 이상 안전 조치 유지 조건부 의무

여기서 놓치면 안 되는 게 있습니다. 리스크 리포트는 절차적 의무지만, 프론티어 안전 로드맵은 “no hard commitments(구속력 있는 약속이 아님)”이라고 원문에 명시되어 있습니다. 목표를 공표하고 결과를 공개한다는 것이지, 목표를 달성하지 못해도 개발을 중단하지는 않습니다.

경쟁사 상향 약속은 반대로 긍정적으로 읽힙니다. 경쟁사가 더 나은 안전 조치를 비슷한 비용으로 구현하면 Anthropic도 따라가겠다는 내용입니다. 이건 “바닥을 향한 경쟁”을 막는 작은 안전핀으로 볼 수 있습니다. (출처: Anthropic RSP v3.0 Appendix A, 2026.02.24)

Pentagon 압박과 같은 날 발표된 건 우연이었을까요

2026년 2월 24일, Anthropic이 RSP 3.0을 공개한 날 Axios가 별도 단독 보도를 냈습니다. 국방장관 Pete Hegseth가 Anthropic CEO Dario Amodei에게 “금요일까지 Claude의 군사 제한 없는 사용을 허용하지 않으면 제재를 가하겠다”고 경고했다는 내용이었습니다. (출처: Engadget, 2026.02.25; Axios 단독 보도 인용)

💡 두 사건을 같은 날 타임라인에 놓으면 맥락이 달라 보입니다.

Anthropic은 Pentagon의 압박에 맞서 Claude의 “대량 미국 시민 감시” 및 “인간 관여 없는 무기 자율 발사”에는 사용 정책을 유지하겠다고 버텼습니다. 그러나 동시에 자발적 안전 서약의 가장 강력한 조항을 철회했습니다. Engadget은 이를 두고 “뜨거운 스타트업의 윤리가 기업가치 상승에 따라 회색화되는 또 하나의 사례”라고 표현했습니다. (출처: Engadget, 2026.02.25)

Anthropic 측은 두 사건의 연관성을 명시적으로 부정하지 않았습니다. Kaplan은 TIME과의 인터뷰에서 “경쟁 현실에 대한 실용적 대응”이라고 설명했고, Amodei가 이사회 만장일치로 결정을 승인했다고 밝혔습니다. (출처: TIME 단독, 2026.02.24)

중요한 건 상관관계가 아닙니다. RSP 3.0 발표 타이밍이 보여주는 것은, AI 안전 정책이 이제 기술 결정이 아닌 지정학·군사·상업 압박이 모두 교차하는 지점에서 만들어진다는 사실입니다.

지금 남아 있는 조치와 빠진 조치

“안전 서약이 사라졌다”는 헤드라인과 달리, 현재 운영 중인 보호 장치는 그대로입니다. 명확하게 구분하면 이렇습니다.

✅ 현재 유지되는 조치 (ASL-3, 단일 약속)

  • Constitutional Classifiers — 바이오/화학 무기 관련 입출력 차단
  • ASL-3 접근 통제 — 신뢰 사용자 예외 포함
  • 레드팀·버그 바운티·위협 인텔리전스 유지
  • 모델 가중치 도난 방지 보안 조치

❌ 조건부화된 조치 (업계 권고로 격하)

  • RAND SL4 수준 보안 — 단독 의무에서 산업 권고로 이동
  • ASL-4/ASL-5 구체적 기준 정의 — 폐지
  • 개발 중단 약속 — 이중 조건부로 대체
  • 핵·방사선 위험 카테고리 — RSP에서 삭제

핵·방사선 리스크 카테고리가 RSP에서 아예 삭제된 점은 주목할 만합니다. Anthropic 측은 별도 설명을 제공하지 않았으나, GovAI 분석은 “이러한 리스크가 재앙적 피해로 이어질 가능성이 낮다는 업데이트된 시각 때문으로 보인다”고 분석했습니다. (출처: GovAI 분석, governance.ai, 2026.03.05) 확인 필요.

RAND SL5 “불가능”이라고 공식 문서에 적혔습니다

Anthropic이 상위 보안 기준 약속을 철회한 이유가 단순히 “의지가 없어서”가 아니라는 걸 보여주는 대목이 RSP 원문에 있습니다. Anthropic은 공식 발표문에서 RAND 보고서를 직접 인용하며 이렇게 썼습니다.

💡 원문에서 직접 확인한 수치입니다.

Anthropic RSP 3.0 발표문에 따르면 RAND 보고서를 인용하며 “RAND의 SL5 보안 기준(최고 수준의 사이버 역량을 가진 국가급 공격자 방어)은 현재 불가능하며 국가 안보 커뮤니티의 지원 없이는 달성하기 어렵다“고 직접 적시했습니다. (출처: Anthropic RSP v3.0 발표문, RAND RRA2849-1 인용, 2026.02.24)

이것이 뜻하는 바는 이렇습니다. “어떤 단일 AI 기업도, 국가 지원 없이 국가급 해킹에 대한 완전한 모델 가중치 보안을 달성할 수 없다.” 즉, Anthropic이 약속한 상위 보안 기준을 지키려 했다면 물리적으로 불가능한 약속을 하는 것이었습니다.

이 대목이 기존 블로그 글들이 잘 다루지 않는 부분입니다. RSP 철회를 “안전 포기”로만 프레임하면 이 맥락이 날아갑니다. 동시에 “현실적 한계를 인정했다”는 해석도 “그렇다면 애초에 왜 그런 약속을 했냐”는 질문을 피할 수 없습니다.

METR의 정책 디렉터 Chris Painter는 이를 정확하게 짚었습니다. “이 변화는 Anthropic이 트리아지 모드로 전환했음을 보여준다 — 위험 평가와 완화 방법이 능력 발전 속도를 따라가지 못하기 때문이다.” 그러면서 기존 이진 임계값이 사라지면 “개구리 삶기(frog-boiling) 효과”가 올 수 있다고 경고했습니다. (출처: TIME, METR Chris Painter 인터뷰, 2026.02.24) 위험이 서서히 높아지지만 어느 시점에도 경보가 울리지 않는 상황을 말합니다.

Q&A

Q1. RSP 3.0 이후 Claude 사용이 더 위험해지나요?
현재 ASL-3 수준의 보호 조치는 그대로 유지됩니다. Constitutional Classifiers, 접근 통제 등은 변경 없습니다. 달라진 건 미래의 더 강력한 모델에 대한 강제적 멈춤 조항이 사라진 것입니다. 즉, 지금 당장보다는 향후 더 강력한 모델이 나올 때의 안전망이 약해진 것입니다. (출처: Anthropic RSP v3.0 원문, 2026.02.24)
Q2. 리스크 리포트는 얼마나 자주 나오나요?
RSP v3.0은 3~6개월마다 발행을 의무화했습니다. 첫 번째 리스크 리포트는 2026년 2월 함께 공개됐습니다. 단, 외부 전문가 검토는 모델이 “고도 역량(highly capable)” 수준에 도달하고 보고서가 상당 수준 편집된 경우에만 의무화됩니다. 그 기준은 “2018~2024년 2년치 AI 발전을 1년에 압축할 수 있는 모델”입니다. 현재 Claude는 해당 기준 미도달 상태입니다. (출처: Anthropic RSP v3.0, 섹션 3.6, 2026.02.24)
Q3. 다른 AI 기업들도 RSP 같은 정책이 있나요?
OpenAI는 Preparedness Framework, Google DeepMind는 Frontier Safety Framework를 운영 중입니다. 두 회사 모두 Anthropic의 초기 RSP 발표 후 수개월 내에 유사 정책을 도입했습니다. (출처: OpenAI Preparedness Framework, GovAI 분석 2026.03.05) 현재 GovAI 기준 11개 회사가 유사 프레임워크를 운영 중입니다.
Q4. Pentagon 압박이 RSP 변경에 직접 영향을 줬나요?
Anthropic은 두 사건의 직접적 연관성을 공식 부인하지 않았습니다. Kaplan은 “경쟁 현실에 대한 실용적 판단”이라고만 설명했습니다. 같은 날 발표된 것이 우연인지는 공개된 정보로는 확인 불가합니다. (출처: TIME 단독 인터뷰, Engadget, 2026.02.24~25)
Q5. 투명성이 강제 서약보다 나을 수 있지 않나요?
GovAI는 “지키지 못할 약속보다 현실적인 투명성이 낫다”는 시각에 동의합니다. 다만 “투명성과 구속력은 다른 차원”이라는 한계도 명시했습니다. 리스크 리포트가 아무리 투명해도, “공개된 리스크가 높다고 인정하면서도 개발을 계속할 수 있다”는 구조 자체는 변하지 않습니다. (출처: GovAI 분석, 2026.03.05)

마치며 — 서약의 수명

Anthropic RSP는 처음부터 “살아있는 문서(living document)”를 자처했습니다. 바뀌는 건 예정된 일이었습니다. 문제는 방향이었습니다.

솔직히 말하면, 이번 RSP 3.0은 나쁜 선택과 덜 나쁜 선택 사이의 선택처럼 보입니다. “지키지 못할 약속을 유지하면서 escape clause를 조용히 쓰는 것”보다, “현실을 인정하고 투명성을 높이는 것”이 덜 나쁩니다. GovAI도 같은 판단을 내렸습니다.

그러나 이 사건이 보여주는 더 큰 그림이 있습니다. AI 업계에서 가장 강한 자발적 안전 약속이 시장 압박·정치 환경·보안 기술 한계라는 세 가지 현실 앞에서 3년을 버티지 못했습니다. 이것은 “자율 규제로 충분하다”는 주장에 대한 가장 강력한 반례입니다.

RSP 3.0 이후 리스크 리포트가 얼마나 솔직하게 나올지, 프론티어 안전 로드맵 목표가 실제로 달성될지가 앞으로의 관전 포인트입니다. 3~6개월마다 공개되는 만큼, 검증의 기회는 생겼습니다.

본 포스팅 참고 자료

  1. Anthropic 공식 RSP v3.0 발표문 — anthropic.com/news/responsible-scaling-policy-v3
  2. Anthropic RSP v3.0 전문 PDF — anthropic.com/responsible-scaling-policy/rsp-v3-0
  3. GovAI 분석: RSP v3.0 작동 방식과 변경 사항 — governance.ai, 2026.03.05
  4. TIME 단독: Anthropic Drops Flagship Safety Pledge — time.com, 2026.02.24
  5. Engadget: Anthropic weakens safety pledge amid Pentagon pressure — engadget.com, 2026.02.25

※ 본 포스팅은 2026년 2월 24일 발효된 Anthropic RSP v3.0을 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Anthropic의 정책 내용, 수치, 약속 사항은 향후 업데이트에 따라 달라질 수 있으며, 최신 내용은 Anthropic 공식 사이트에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기