Mistral, 170개 언어 지원 온프레미스 문서 AI 'OCR 4' 출시
한 줄 요약: Mistral AI가 6월 23일 OCR 4를 공개했다. 170개 언어의 문서에서 단락 수준 바운딩 박스와 구조화된 텍스트를 추출하며, 단일 컨테이너로 자체 서버에 배포 가능한 것이 핵심이다.
핵심
- 170개 언어 지원, 단락 수준 바운딩 박스 포함 구조화 텍스트 추출
- 단일 컨테이너 자체 호스팅 배포 — 민감 데이터가 외부 클라우드로 전송되지 않음
- RAG 파이프라인·에이전트·기업 검색 시스템에 바로 연결 가능한 인용 형식 구조 출력
- 금융·의료·법무 등 규제 산업 엔터프라이즈가 주요 타깃
왜 중요한가
클라우드 OCR API(Google Document AI, Azure Form Recognizer 등)는 데이터를 외부로 보내야 해 규제 산업에서 도입 장벽이 높다. OCR 4는 동급 품질을 온프레미스로 제공함으로써 Mistral이 오픈 모델 전략의 최대 수혜 고객—보안에 민감한 대형 엔터프라이즈—을 직접 공략하는 행보다.
더 보기
- VentureBeat 분석 — VentureBeat
- 기술 상세 — MarkTechPost