Anthropic이 최신 모델 Claude Opus 4.7을 정식 출시했습니다. 전작인 Opus 4.6 대비 소프트웨어 엔지니어링 능력이 눈에 띄게 향상되었으며, 특히 난이도 높은 장기 실행 작업(long-running task)에서 두드러진 성능 개선을 보여주는 것이 이번 발표의 핵심입니다.
Opus 4.7의 가장 큰 변화는 자율성(autonomy)과 신뢰성입니다. 기존에는 복잡한 코딩 작업을 AI에게 맡기더라도 중간중간 사람이 개입해 방향을 잡아줘야 했습니다. 하지만 Opus 4.7은 계획 단계에서 스스로 논리적 오류를 발견하고 수정하며, 결과를 보고하기 전에 자체적으로 검증하는 과정을 거칩니다. 사용자들은 "이전에는 밀착 감독이 필요했던 작업을 이제는 자신 있게 맡길 수 있다"고 평가하고 있습니다.
실제로 Cursor의 내부 벤치마크인 CursorBench에서 Opus 4.7은 70%의 해결률을 기록했는데, 이는 Opus 4.6의 58%에서 크게 도약한 수치입니다. 또한 93개 작업으로 구성된 별도의 코딩 벤치마크에서는 Opus 4.6 대비 13% 높은 해결률을 보였으며, 그 중에는 Opus 4.6과 Sonnet 4.6 모두 풀지 못했던 4개의 문제도 포함되어 있습니다.
에이전트(agent) 기반 워크플로우를 운영하는 팀들에게 특히 주목할 만한 성과가 있습니다. Notion의 평가에 따르면, Opus 4.7은 복잡한 멀티스텝 워크플로우에서 Opus 4.6 대비 14% 향상된 성능을 더 적은 토큰과 3분의 1 수준의 도구 오류율로 달성했습니다. 특히 기존 모델들이 도구 실패(tool failure) 상황에서 멈춰버리던 문제를 Opus 4.7은 계속 실행하며 돌파해 낸다는 점이 인상적입니다. Notion은 이를 두고 "에이전트가 진정한 팀원처럼 느껴지게 만드는 신뢰성의 도약"이라고 표현했습니다.
Devin을 운영하는 Cognition도 유사한 평가를 내놓았습니다. Opus 4.7이 장시간 일관성 있게 작동하며, 어려운 문제를 포기하지 않고 끝까지 파고드는 능력 덕분에 이전에는 안정적으로 실행하기 어려웠던 심층 조사 작업(deep investigation work)이 가능해졌다고 밝혔습니다.
Opus 4.7은 더 높은 해상도의 이미지를 처리할 수 있게 되어 멀티모달(multimodal) 이해 능력도 크게 향상되었습니다. 화학 구조식 해독, 복잡한 기술 다이어그램 해석 등 전문 분야에서의 활용 가능성이 넓어졌습니다. 생명과학 특허 워크플로우 전문 기업 Solve Intelligence는 특허 초안 작성부터 침해 탐지, 무효 분석에 이르기까지 Opus 4.7의 고해상도 지원이 핵심적인 역할을 하고 있다고 밝혔습니다. 또한 전문적인 결과물 — 인터페이스, 슬라이드, 문서 등 — 의 품질과 완성도도 전작 대비 눈에 띄게 향상되었습니다.
이번 출시에서 Anthropic이 특별히 강조한 부분은 사이버보안 관련 안전장치입니다. Anthropic은 지난주 'Project Glasswing'을 통해 AI 모델의 사이버보안 활용에 따른 위험성과 이점을 공개적으로 논의한 바 있습니다. Opus 4.7은 가장 강력한 모델인 Claude Mythos Preview보다 사이버 공격 능력이 낮게 설계되었으며, 훈련 과정에서 의도적으로 이 부분의 능력을 제한하는 실험을 진행했습니다.
출시와 함께 금지되거나 고위험 사이버보안 용도의 요청을 자동으로 감지하고 차단하는 안전장치가 적용되었습니다. 취약점 연구, 침투 테스트(penetration testing), 레드팀(red-teaming) 등 합법적인 사이버보안 목적으로 Opus 4.7을 활용하려는 보안 전문가들은 새롭게 개설된 Cyber Verification Program에 참여 신청을 할 수 있습니다.
법률 AI 플랫폼 Harvey는 BigLaw Bench 기준으로 Opus 4.7이 90.9%의 정확도를 기록했다고 밝혔습니다. 특히 양도 조항(assignment provision)과 지배권 변경 조항(change-of-control provision)을 정확히 구분하는 등 기존 프론티어 모델들이 어려움을 겪었던 법률 문서 처리 과제에서 뚜렷한 개선을 보였습니다. 금융 분야에서도 Opus 4.6 대비 향상된 정확도와 데이터 규율을 보여주며, 데이터가 없을 때 그럴듯한 오답을 내놓는 대신 정직하게 누락을 보고하는 신뢰성이 높이 평가받고 있습니다.
가격은 Opus 4.6과 동일하게 유지됩니다. 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $25입니다. Claude API를 통해 claude-opus-4-7로 접근할 수 있으며, Amazon Bedrock, Google Cloud의 Vertex AI, Microsoft Foundry에서도 오늘부터 이용 가능합니다. 모든 Claude 제품에서도 동일하게 사용할 수 있습니다.
에이전트 기반 개발 환경이 빠르게 확산되는 지금, Opus 4.7은 "1:1로 모델과 대화하는 방식"에서 "여러 에이전트를 병렬로 관리하는 방식"으로 전환하는 흐름에 최적화된 모델입니다. 자체 검증, 도구 오류 극복, 장시간 일관성 유지 등의 특성은 바이브코딩(vibe coding) 워크플로우에서 AI를 진정한 협업 파트너로 활용하고자 하는 개발자들에게 실질적인 도움이 될 것입니다. 가격 변동 없이 성능이 올라간 만큼, 기존 Opus 4.6 사용자라면 업그레이드를 적극적으로 검토해볼 시점입니다.
📎 출처: Anthropic 뉴스룸
아직 댓글이 없습니다