앤트로픽이 스스로 만들고도 스스로 막아버린 AI가 있습니다. 클로드 미토스, 내부에서 지금까지 만든 것 중 가장 강력한 모델이라고 평가한 바로 그 모델입니다. 성능이 부족해서가 아니라, 너무 뛰어나기 때문에 일반에 내놓을 수 없다는 판단이 내려졌습니다. 그 판단의 근거가 된 실제 능력들을 들여다봤습니다.
판도라의 상자 클로드 미토스
클로드 하면 하이쿠, 소넷, 오퍼스로 이어지는 3단계 구조를 떠올리는 분들이 많을 겁니다. 그런데 앤트로픽은 그 위에 완전히 새로운 최상위 등급을 하나 더 만들었습니다. 내부 코드명은 카피바라, 공식 명칭은 클로드 미토스입니다.
기존 오퍼스보다 더 크고, 더 비싸고, 더 지능적인 모델로 설계된 이 모델은 처음부터 일반 사용자를 위한 것이 아니었습니다.
미토스의 존재가 세상에 알려진 건 2026년 3월 26일, 앤트로픽 내부 콘텐츠 관리 시스템의 설정 오류로 약 3,000개의 미발행 내부 자산이 외부에 노출되면서입니다. 앤트로픽은 이를 인정하면서도 모델 자체의 배포는 일반 대중과 API 사용자 모두에게 하지 않겠다고 공식 확정했습니다.
앤트로픽이 공개를 막은 이유
단순히 아직 준비가 안 됐다는 이유가 아닙니다. 앤트로픽이 스스로 이 모델의 공격 능력을 문제로 지목했습니다. 미토스는 모든 주요 운영체제와 웹 브라우저에서 인간 보안 전문가가 수주에 걸쳐 찾아야 할 제로데이 취약점을 단 몇 시간 만에 자율적으로 탐지합니다.
제로데이(Zero-Day)는 소프트웨어나 시스템에 존재하는 보안 취약점인데, 해당 취약점을 만든 개발사나 보안 담당자가 아직 존재 자체를 모르는 상태의 것을 말합니다. 발견된 날이 0일째라는 뜻에서 제로데이라고 부릅니다. 개발사가 모르니 당연히 패치도 없고, 방어도 없는 상태입니다. 공격자 입장에서는 가장 이상적인 취약점입니다.
그런데 미토스가 27년 동안 발견되지 않았던 취약점을 찾아냈고, 자동화된 테스트 도구가 500만 번 이상 검사하고도 놓쳤던 16년 된 취약점도 스스로 끄집어냈습니다.
더 주목할 부분은 단순히 취약점을 찾는 것에서 그치지 않는다는 점입니다. 취약점들을 스스로 연결해 시스템 전체 관리자 권한을 획득하는 공격 체인을 인간의 개입 없이 형성했습니다. 시스템의 핵심 보안 주소 무작위화 방어 체계를 무력화하고, 기존 프로그램 안의 안전한 코드 조각들을 교묘하게 재조합해 공격자가 원하는 기능을 실행하게 만드는 수준까지 자율적으로 수행합니다.
악의적인 사용자가 이 모델에 접근하게 될 경우 어떤 일이 벌어질지, 앤트로픽이 직접 경고했다는 사실 자체가 공개 금지 결정의 핵심 배경입니다. 왜 미국의 주요 금융사가 한 자리에 모였는지 알 수 있는 부분입니다.
이에 앤트로픽은 미국 사이버보안 및 기간시설 안보국과 상무부에 모델의 공격 능력을 상세히 브리핑하고 국가 안보 차원의 대응책을 논의했습니다. 책임 있는 확장 정책에 따라 모델의 성능이 안전 통제 한계를 넘어선다고 판단할 경우 즉각 배포를 제한하는 원칙도 유지하고 있습니다.
그렇다면 이 모델은 어디에 쓰이나
공개 금지라고 해서 완전히 봉인된 것은 아닙니다. 앤트로픽은 이 모델을 제한적으로 운용하고 있습니다. AWS, 애플, 구글, 마이크로소프트, 엔비디아, 크라우드스트라이크 등 12개 기업이 창립 파트너로 참여했으며, 앤트로픽은 참여 기관에 총 1억 달러 규모의 모델 사용 크레딧을 무상 지원하고 있습니다.
이 프로젝트의 방향은 단순합니다. 공격자들이 동일한 수준의 AI를 확보하기 전, 지금 이 시간 동안 핵심 시스템의 취약점을 먼저 찾아 수정하겠다는 것입니다.