본문으로 건너뛰기
뉴스 목록

Gemini 2.5 Pro Deep Think, 과학·추론 벤치마크 역대 최고치 — GPQA Diamond 82.4%로 Fable 5 추월

한 줄 요약: Google Gemini 2.5 Pro의 확장 추론 모드 Deep Think가 6월 22일 출시돼 과학·수학·추론 벤치마크에서 동급 공개 모델 최고 점수를 기록했다.

핵심

  • GPQA Diamond: 82.4% — Claude Fable 5(79.1%)·GPT-5.5(76.3%) 초월, 공개 모델 최고치
  • MMLU-Pro: 89.8% — 역대 공개 모델 중 최고
  • Humanity's Last Exam(다학제 극난도 벤치마크) 및 LiveCodeBench V6에서도 선두
  • 컨텍스트 창: 200만 토큰 — 전체 코드베이스·영상 수 시간 분량·수개월 대화 이력 단일 세션 처리
  • 현재: Google AI Ultra 구독자($250/월) 전용 / API 접근 예정

왜 중요한가

Fable 5가 수출통제로 묶인 사이 Google이 과학·추론 분야 벤치마크 왕좌를 탈환했다. 단, Deep Think는 Ultra 유료 구독 전용으로 일반 개발자 API 접근은 아직 미확정이며, Gemini 3.5 Pro(GA 미정)와의 포지셔닝도 명확히 정리되지 않은 상황이다.

더 보기

뉴스레터 구독

무료 뉴스레터

매주 핵심 AI 소식, 한 번에 받기

쏟아지는 AI·LLM 뉴스 중 꼭 알아야 할 것만 골라 메일로 보내드려요. 뉴스레터 발송이 시작되면 구독자분들께 가장 먼저 보내드립니다.