Anthropic·Amazon·MS·Google, AI 탈옥 위험도 공동 측정 기준 'JSVS' 제안
한 줄 요약: AI 업계 4개 주요사가 탈옥 취약점의 위험도를 표준화된 점수로 매기는 공동 프레임워크를 제안했다.
핵심
- Anthropic이 Fable 5 복귀에 맞춰 Project Glasswing 확장판 발표; Amazon·Microsoft·Google이 공동 참여
- 탈옥 심각도는 4개 기준으로 평가: ①기존 도구 대비 추가 능력 획득량 ②그 능력의 과제 간 확장 범위 ③무기화 용이성(단발 프롬프트 vs. 다단계) ④이미 온라인에 공개·확산된 정도
- 보안 분야 CVSS(공통 취약점 점수 체계)를 AI 탈옥에 응용한 구조
- Fable 5 정지를 유발한 탈옥 사례를 이 기준으로 소급 분석해 프레임워크 타당성 검증; 다른 연구소의 참여도 공개 모집
왜 중요한가
규제 당국이 탈옥 심각도에 따라 수출 통제·서비스 중단을 결정하는 시대에, 업계가 공통 측정 언어를 갖지 않으면 각국 정부가 임의 기준을 앞세울 위험이 크다. CVSS처럼 이 프레임워크가 표준으로 정착하면 AI 보안 공시와 규제 대화의 공용어가 될 수 있다.
더 보기
- Expanding Project Glasswing — Anthropic
- Cross-Lab Jailbreak Rubric 상세 — AI Weekly