Claude Opus 4.5 완전 분석: SWE-bench 80% 최초 돌파, AI 코딩의 새 기준

Anthropic이 Claude Opus 4.5를 공개했습니다. SWE-bench Verified 80.9%로 업계 최초 80% 돌파, 새로운 "effort" 파라미터로 추론 깊이 조절 가능. AI 코딩 도구의 새로운 시대가 열렸습니다.

2025년 11월 24일, Anthropic은 Claude Opus 4.5를 공식 발표했습니다. 이 모델은 코딩, 에이전트, 컴퓨터 사용에 최적화되어 있으며, 2026년 1월 현재 AI 업계에서 가장 주목받는 모델 중 하나로 자리잡았습니다.

이 분석은 Anthropic 공식 발표, The New Stack, AI Business 등 공신력 있는 소스를 기반으로 작성되었습니다.

핵심 성과: SWE-bench 80.9% 달성

Claude Opus 4.5는 SWE-bench Verified에서 80.9%를 기록하며, 업계 최초로 80% 벽을 넘어선 모델이 되었습니다. SWE-bench는 실제 GitHub 이슈를 해결하는 능력을 측정하는 벤치마크로, 실용적인 소프트웨어 엔지니어링 능력을 평가합니다.

"Anthropic은 Opus 4.5에게 실제 채용 과정에서 사용하는 성능 엔지니어링 테스트를 시행했습니다. 2시간 제한의 이 테스트에서 Opus 4.5는 지금까지 지원한 어떤 인간 후보자보다 높은 점수를 받았습니다."
- Anthropic 공식 페이지

주요 벤치마크 성능 비교

AI BusinessBusiness Analytics에서 보도된 주요 벤치마크 결과입니다:

  • SWE-bench Verified: 80.9% (업계 최초 80% 돌파)
  • OSWorld: 66.3% (컴퓨터 사용 벤치마크 1위)
  • 가격: 이전 Opus 대비 66% 절감

혁신적인 "Effort" 파라미터

Anthropic 발표에 따르면, Opus 4.5의 가장 주목할 만한 기능은 "effort" 파라미터입니다. 이 API 기능(현재 퍼블릭 베타)을 통해 개발자는 모델의 추론 깊이를 조절할 수 있습니다.

  • Low effort: 빠르고 비용 효율적인 응답
  • Medium effort: Sonnet 4.5 수준 성능, 76% 적은 출력 토큰
  • High effort: 복잡한 다단계 추론에 최적

The New Stack은 이를 "추론 노브"라고 표현하며, 개발자가 상황에 따라 비용과 성능의 균형을 맞출 수 있게 해준다고 평가했습니다.

가격 및 가용성

Microsoft Azure 블로그와 Anthropic 공식 발표에 따른 가격 정책입니다:

  • 입력 토큰: $5 / 백만 토큰
  • 출력 토큰: $25 / 백만 토큰
  • 프롬프트 캐싱: 최대 90% 비용 절감
  • 배치 처리: 50% 비용 절감

플랫폼 가용성

  • Claude Developer Platform (기본)
  • Amazon Bedrock
  • Google Cloud Vertex AI
  • Microsoft Foundry (퍼블릭 프리뷰)
  • GitHub Copilot 유료 플랜
  • Microsoft Copilot Studio

업계 지형 변화

The New Stack에 따르면, Opus 4.5의 등장은 AI 빅3 간의 경쟁 구도를 다시 한번 뒤흔들었습니다.

"Opus 4.5 발표 일주일 전, Google은 Gemini 3 Pro로 잠시 성능 왕좌를 차지했습니다. 하지만 Opus 4.5의 특화된 추론 및 코딩 역량이 Anthropic을 다시 정상에 올려놓았습니다."
- The New Stack

현재 AI 빅3 비교 (2026년 1월)

  • OpenAI GPT-5.2: ARC-AGI 90%+ 최초 돌파, AIME 2025 100% (OpenAI 공식)
  • Google Gemini 3 Pro: LMArena 리더보드 1위 유지
  • Anthropic Claude Opus 4.5: SWE-bench 80.9%, 코딩/에이전트 특화

Cowork: 새로운 컴퓨터 사용 기능

TechCrunch에 따르면, Anthropic은 Cowork라는 연구 프리뷰도 함께 공개했습니다. 이 기능을 통해 Claude는 사용자 컴퓨터의 로컬 폴더에 직접 접근하여 다단계 작업을 완료할 수 있습니다.

  • Max 및 Pro 구독자 이용 가능
  • 로컬 파일 시스템 접근
  • 다단계 자율 작업 수행

사용량 제한 이슈

The Register는 Claude Code 사용자들 사이에서 사용량 제한 변경에 대한 불만이 제기되고 있다고 보도했습니다. 일부 사용자들은 토큰 할당량이 빠르게 소진된다고 지적했습니다.

Anthropic은 2025년 12월 25일부터 31일까지 연휴 기간 동안 사용량 제한을 2배로 늘려 유휴 컴퓨팅 용량을 활용하도록 했었습니다.

Anthropic의 전략: "더 적은 것으로 더 많이"

CNBC 인터뷰에서 Anthropic 공동창업자 다니엘라 아모데이(Daniela Amodei)는 회사의 전략을 설명했습니다.

"다음 단계는 가장 큰 사전 학습만으로 승리하는 것이 아닙니다. 컴퓨팅 달러당 가장 많은 역량을 제공하는 자가 승리합니다."
- Daniela Amodei, Anthropic 공동창업자

OpenAI가 1.4조 달러 규모의 컴퓨팅 투자를 발표하는 동안, Anthropic은 지출과 알고리즘 효율성에 대한 절제된 접근법을 취하고 있습니다.

2026년 매출 전망

  • Anthropic: 2025년 $47억 → 2026년 $150억 목표
  • OpenAI: 2025년 $130억+ → 2026년 $300억 목표

개발자를 위한 시사점

Claude Opus 4.5의 등장이 개발자들에게 주는 의미를 정리합니다:

  1. 코딩 작업: SWE-bench 80.9%로 실제 개발 작업에서 가장 높은 성공률
  2. 비용 최적화: effort 파라미터로 상황에 맞는 비용-성능 균형
  3. 에이전트 워크플로우: OSWorld 66.3%로 자율 작업 수행 능력 최상위
  4. 다중 플랫폼: AWS, GCP, Azure 모두에서 이용 가능

향후 전망: Claude 5를 기다리며

The New Stack에 따르면, 업계는 2026년 봄에 Claude 5에 대한 첫 소식을 기대하고 있습니다. 그때까지 Opus 4.5의 새로운 추론 역량이 비즈니스에 어떻게 통합될지가 주요 관심사입니다.

참고 자료

Tags: Claude Opus 4.5 Anthropic SWE-bench AI 코딩

Related Posts