최근 출시된 클로드 3 오푸스(Claude 3 Opus)는 챗봇 아레나 리더보드에서 GPT-4를 제치고 1위를 차지했습니다. 이에 많은 기업들이 확장된 컨텍스트 윈도우 크기와 낮은 비용 등의 장점에 이끌려 클로드 모델을 자사 유스케이스에 적용하기 위해 평가하기 시작했습니다.
이 글에서는 여러가지 테스트 결과를 바탕으로 다양한 태스크에서의 GPT-4와 클로드 3 오푸스의 성능을 분석해보겠습니다. 두 모델의 비용, 컨텍스트 윈도우, 벤치마크 점수를 기본적으로 비교하고, 긴 컨텍스트 처리, 수학 문제, 문서 요약, 데이터 추출, 히트맵 해석, 코딩 등 4가지 태스크에서의 성능도 살펴보겠습니다.