OpenAI, 생명과학 AI 벤치마크 LifeSciBench 공개…최강 모델도 33%만 통과
한 줄 요약: OpenAI가 제약·바이오 연구자 173명이 설계한 750개 과제의 생명과학 벤치마크를 공개했으며, 최고 모델도 약 3분의 1만 통과하는 높은 난이도를 보였다.
핵심
- 750개 과제: 약물 발견·게놈학·분자생물학 등 7대 바이오 분야 × 7대 실험 워크플로 구조화
- 생명공학·제약사 소속 연구자 173명이 문항·채점 기준 작성, 전문가 검토 완료
- 각 문항에 프롬프트 + 보조 자료(논문·데이터셋) + 루브릭 포함
- 현재 최강 모델 기준 통과율 약 33%(세 문제 중 하나)
- 함께 시연: GPT-5.4 + Molecule.one으로 난이도 높은 의약품 합성 반응을 최적화한 '준자율 AI 화학자'
왜 중요한가
기존 과학 벤치마크 상당수가 지식 암기 테스트에 머물렀다면, LifeSciBench는 실제 실험 의사결정을 평가한다. 33% 통과율은 AI가 "문헌을 아는 것"과 "연구를 수행하는 것" 사이의 간극이 여전히 크다는 사실을 수치로 보여주며, 생명과학 AI 도구의 실용화 시점을 가늠하는 기준점이 될 전망이다.
더 보기
- Introducing LifeSciBench — OpenAI
- LifeSciBench 상세 분석 — MarkTechPost