Anthropic이 2026년 7월 1일부터 Claude Fable 5와 Claude Mythos 5의 접근권을 전면 복구했습니다. 지난 6월 12일 미국 정부가 두 모델에 수출 통제를 적용하면서 전 세계 사용자의 접근이 일시 차단된 지 약 3주 만의 일입니다. 이번 사태는 단순한 서비스 중단에 그치지 않고, AI 업계 전반의 안전 체계와 정부 협력 방식에 대한 심층적인 논의를 촉발했습니다.
Claude Fable 5와 Mythos 5는 6월 9일 출시됐습니다. 두 모델은 동일한 기반 모델을 공유하지만, Fable 5는 일반 사용자를 위한 강력한 안전장치를 탑재한 버전이고, Mythos 5는 방어적 사이버보안 목적으로 소수의 신뢰할 수 있는 'Project Glasswing' 파트너에게만 제공된 버전입니다.
출시 사흘 뒤인 6월 12일, 미국 정부는 Amazon 연구진이 Fable 5의 안전장치를 우회하는 방법을 발견했다는 보고서를 접수한 뒤 즉각 수출 통제를 발동했습니다. 해당 기법은 모델이 소프트웨어 취약점(vulnerability) 여러 개를 식별하도록 유도하는 방식이었으며, 한 사례에서는 특정 취약점을 악용하는 방법을 시연하는 코드까지 생성됐습니다. 정부의 명령이 즉시 발효됐고, Anthropic은 실시간으로 국적을 검증할 수단이 없었기 때문에 모든 사용자의 접근을 일괄 차단할 수밖에 없었습니다.
Anthropic이 자체 검증을 진행한 결과, 이번에 문제가 된 취약점 식별 능력은 Fable 5만의 고유한 기능이 아니었습니다. Claude Opus 4.8, GPT-5.5, Kimi K2.7을 포함한 다수의 덜 강력한 모델들도 동일한 취약점을 식별할 수 있었습니다. 특정 취약점 악용 방법을 시연하는 코드의 경우, 테스트한 모든 모델(Claude Haiku 4.5, Sonnet 4.6, Opus 4.6~4.8, GPT-5.4, GPT-5.5, Kimi K2.7 포함)이 같은 수준의 출력을 생성할 수 있었습니다.
즉, 이번 우회 기법이 노출시킨 행동은 Mythos 5 수준의 고유한 사이버 공격 능력과는 거리가 멀었습니다. Anthropic은 이를 "안전 마진(safety margin) 경계선상의 사례"로 평가했습니다. 그럼에도 불구하고 Anthropic은 정부와 긴밀히 협력해 해당 우회 기법을 99% 이상 차단하는 개선된 안전 분류기(safety classifier)를 신속하게 훈련·배포했습니다.
Anthropic은 이번 공개글에서 자사의 사이버보안 안전장치 설계 철학을 상세히 공개했습니다. 핵심은 '심층 방어(defense in depth)' 전략입니다. 모델 훈련 단계에서의 거절 학습, 사후 패턴 분석, 그리고 실시간으로 작동하는 안전 분류기(classifier) 등 여러 겹의 방어막을 조합해 단일 방어막의 취약점을 보완합니다.
분류기는 요청을 '명확히 안전한 것', '모호한 것(방어 목적일 수도 있는 취약점 탐색 등)', '명확히 위험한 것'으로 분류합니다. 여기에 더해 안전 마진을 설정해, 아마도 무해하지만 미세한 위험 가능성이 있는 요청도 차단합니다. Fable 5는 역대 출시 모델 중 가장 넓은 안전 마진을 적용했기 때문에, 일부 사용자들이 합리적인 요청에도 거절 응답을 받는 불편을 겪기도 했습니다.
탈옥(jailbreak)의 심각도도 스펙트럼으로 나뉩니다. 안전 마진 구간만 침범하는 경미한 탈옥, 특정 유해 행동을 유발하는 협소한 유해 탈옥, 그리고 광범위한 유해 행동을 한꺼번에 해제하는 범용 탈옥으로 구분됩니다. Anthropic은 이번에 보고된 기법이 경미한 탈옥 범주에 해당한다고 판단했습니다.
이번 사태를 계기로 Anthropic은 Amazon, Microsoft, Google 및 기타 Glasswing 파트너들과 함께 AI 탈옥 심각도 평가를 위한 공통 산업 프레임워크 초안 작성에 착수했습니다. 현재 제안된 평가 기준은 네 가지입니다.
이 프레임워크는 AI 개발사들이 새로운 탈옥 발견 시 우선순위를 빠르게 정하고, 정부 및 파트너에게 위험 수준을 일관되게 전달하는 데 기여할 것으로 기대됩니다. Anthropic은 보안 연구자들이 Fable 5의 사이버 탈옥 가능성을 제출할 수 있는 새로운 HackerOne 프로그램도 함께 출시할 예정입니다.
Anthropic은 지난 10주간 미국 정부와 긴밀하게 협력하며 6월 2일 발표된 '첨단 인공지능 혁신 및 보안 촉진에 관한 행정명령(Executive Order)'의 방향 수립에도 참여했습니다. 국가사이버국장실(ONCD), 과학기술정책실(OSTP), 재무부 등 여러 정부 기관과의 협력을 통해 사전 출시 테스트, 정보 공유, 연구 협력 등의 영역에서 더욱 심화된 협력 체계를 구축하고 있습니다. Mythos 5의 경우 6월 26일 미국 정부의 승인을 받아 일부 미국 내 기관에 대한 접근이 복구됐으며, Glasswing 프로그램 내 국내외 파트너로의 확대는 계속 진행 중입니다.
이번 사태는 강력한 AI 모델의 출시가 단순한 기술 이벤트를 넘어 국가 안보 및 국제 규범과 직결되는 문제임을 명확히 보여줬습니다. 바이브코더와 AI 개발자 입장에서는 몇 가지 실질적인 변화를 눈여겨봐야 합니다. Fable 5는 7월 1일부터 Claude.ai, Claude Code, Claude Cowork 등에서 순차적으로 이용 가능하며, Pro·Max·Team 및 일부 Enterprise 플랜 사용자는 7월 7일까지 주간 사용량의 최대 50%를 Fable 5로 활용할 수 있습니다. 또한 업계 공통 탈옥 평가 프레임워크의 등장은 향후 AI 보안 연구와 책임 공개(responsible disclosure) 관행에 새로운 기준을 제시할 것으로 보입니다. 강력한 모델일수록 더 촘촘한 안전망이 필요하다는 교훈은, 모델을 개발하든 활용하든 모든 AI 실무자가 함께 고민해야 할 과제입니다.
📎 출처: Anthropic 뉴스룸
아직 댓글이 없습니다