Gemini 2.5 Pro Deep Think, 과학·추론 벤치마크 역대 최고치 — GPQA Diamond 82.4%로 Fable 5 추월
한 줄 요약: Google Gemini 2.5 Pro의 확장 추론 모드 Deep Think가 6월 22일 출시돼 과학·수학·추론 벤치마크에서 동급 공개 모델 최고 점수를 기록했다.
핵심
- GPQA Diamond: 82.4% — Claude Fable 5(79.1%)·GPT-5.5(76.3%) 초월, 공개 모델 최고치
- MMLU-Pro: 89.8% — 역대 공개 모델 중 최고
- Humanity's Last Exam(다학제 극난도 벤치마크) 및 LiveCodeBench V6에서도 선두
- 컨텍스트 창: 200만 토큰 — 전체 코드베이스·영상 수 시간 분량·수개월 대화 이력 단일 세션 처리
- 현재: Google AI Ultra 구독자($250/월) 전용 / API 접근 예정
왜 중요한가
Fable 5가 수출통제로 묶인 사이 Google이 과학·추론 분야 벤치마크 왕좌를 탈환했다. 단, Deep Think는 Ultra 유료 구독 전용으로 일반 개발자 API 접근은 아직 미확정이며, Gemini 3.5 Pro(GA 미정)와의 포지셔닝도 명확히 정리되지 않은 상황이다.
더 보기
- Google 공식 블로그: Deep Think 출시 — Google
- 벤치마크 상세 분석 — FAQ.com
- Gemini 2.5 Pro 완전 가이드 — Ortemtech