OpenAI, 생명과학 AI 벤치마크 LifeSciBench 공개…최강 모델도 33%만 통과
OpenAI가 제약·바이오 전문가 173명이 만든 750개 과제 벤치마크 LifeSciBench를 발표했다. 최고 성능 모델도 합격률 약 33%에 그쳐 AI의 실제 과학 연구 역량이 아직 제한적임을 드러냈다.
- OpenAI
- Benchmark
- Life Science
- AI Research
- GPT
2건의 기사
OpenAI가 제약·바이오 전문가 173명이 만든 750개 과제 벤치마크 LifeSciBench를 발표했다. 최고 성능 모델도 합격률 약 33%에 그쳐 AI의 실제 과학 연구 역량이 아직 제한적임을 드러냈다.
OpenAI가 실제 대화 데이터를 재생해 새 모델의 문제 행동을 출시 전에 탐지하는 '배포 시뮬레이션' 기법을 공개했다.