Claude Opus 4.8 공개로 본 “신뢰 가능한 AI” 경쟁

AI가 뭔가를 잘못 알고도 당당하게 말하는 걸 본 적 있는가. 거짓말이 아니다. 그냥 확신한다. 그게 지금까지 AI의 가장 큰 문제였다. Anthropic은 이번에 그 문제를 정면으로 건드렸다.

2026년 5월 28일, Anthropic이 Claude Opus 4.8을 공개했다. “겸손하지만 체감할 수 있는 업그레이드(modest but tangible improvement)“라는 표현을 스스로 붙였다. 요란하지 않은 출시다. 그런데 발표문 안에서 가장 많은 분량을 차지한 건 벤치마크 숫자가 아니라 정직성(honesty)이었다.

숫자보다 먼저 온 이야기

SWE-bench Pro 69.2%. GPT-5.5의 58.6%를 10%p 이상 앞섰다. USAMO 2026 수학 증명에서는 전작 4.7의 69.3%에서 단숨에 96.7%로 뛰었다. 숫자만 보면 꽤 인상적이다.

그런데 Anthropic이 제일 먼저 꺼낸 말은 달랐다.

”Opus 4.8은 자신이 작성한 코드의 결함을 그냥 지나치는 비율이 전작 대비 약 4배 낮다.”

이게 왜 중요한가. 에이전트 AI가 실무에 들어가면서 제일 크게 문제가 된 건 능력 부족이 아니었다. 모델이 뭔가 잘못됐는데도 자신 있게 완료했다고 보고하는 것, 그게 진짜 장애물이었다. 틀린 건 고칠 수 있다. 틀린 걸 맞다고 하는 건 고치기가 훨씬 어렵다.

Spotify 스태프 엔지니어 Tom Pritchard는 “4.8은 입출력의 문제를 스스로 먼저 짚어냈다. 다른 모델들은 유저가 직접 찾아야 했다”고 밝혔다. 법무 에이전트 플랫폼 EvenUp에서는 Legal Agent Benchmark 최고 점수를 기록하면서 처음으로 all-pass 기준 10%를 넘은 모델이 됐다.

”정직함”을 수치로 잡는다는 것

Anthropic의 정렬팀이 발표한 결과는 구체적이다. 에이전트 코딩 세션에서 자기 작업을 부정직하게 보고하는 전용 평가에서 Opus 4.8은 Mythos Preview 대비 약 5배, Sonnet 4.6 대비 거의 17배 낮은 비율을 보였다. 결함 있는 결과를 잘못 보고하는 평가에서는 Anthropic 역사상 최초로 0% 문제 행동률을 기록했다. 과신(overconfidence) 측정에서도 4.7 대비 10배 감소했다.

사실 이런 수치를 공개하는 것 자체가 드문 일이다. 대부분의 AI 회사는 안전성과 정렬 문제를 추상적으로 설명하거나 넘어간다. Anthropic은 그걸 정량화해서 경쟁 모델과 나란히 놓았다. 홍보인지, 실제 의지인지는 결국 시간이 말해주겠지만, 방향성만큼은 분명하다.

그리고 Opus 4.8의 오정렬 행동 비율은 자사의 최고 정렬 모델인 Claude Mythos Preview와 “유사한 수준”으로 평가됐다.

Mythos라는 그림자

Claude Mythos는 아직 일반에 공개되지 않는다. 2026년 4월, Anthropic은 Project Glasswing을 통해 일부 파트너 기업에만 제한 배포했다. 이유가 있다. 영국 AI 안전연구소(AISI)는 평가 보고서에서 Mythos Preview가 “전문가 수준 CTF 과제에서 73% 성공률을 기록했으며, 2025년 이전에는 어떤 AI도 성공하지 못했던 기업 네트워크 공격 시뮬레이션을 처음으로 완전히 완료했다”고 밝혔다.

이 수준이 되면 안전이 추상적 개념이 아니다. 실질적 위험이 된다. Anthropic은 이 모델을 ‘역대 가장 잘 정렬된 모델’이라고 표현했지만, 동시에 “아직 일반 공개는 안 된다”는 결론을 내렸다. 능력과 신뢰가 같은 속도로 늘지 않는다는 걸 인정한 것이다.

Opus 4.8은 그 Mythos에 가장 가까운 안전성 프로파일을 가진, 지금 당장 쓸 수 있는 모델이다.

경쟁사들도 같은 방향을 향한다

OpenAI는 GPT-5.5를 2026년 4월에 출시하면서 “역대 가장 강력한 세이프가드”를 내세웠다. 사이버보안 분야에서는 GPT-5.5가 OpenAI 자체 Preparedness Framework 기준 최초로 “High” 등급을 받았다. 그에 맞춰 Trusted Access for Cyber 프로그램을 도입해 방어 보안 전문가들에게만 사이버 허용 버전을 별도 제공한다.

Google은 Gemini 3.1 Pro로 경쟁에 참여하고 있다. Opus 4.8 대비 GDPval-AA(실무 지식 작업 벤치마크)에서 576점 차이로 뒤졌다. 반면 Finance Agent v2에서는 작고 저렴한 Gemini 3.5 Flash가 Opus 4.8을 앞서기도 했다. 특정 영역에서 소형 모델이 플래그십을 이기는 장면이 반복되고 있다.

2026년 초 AI 업계에는 또 다른 사건이 있었다. Anthropic은 2억 달러 규모의 미국 국방부 계약을 잃었다. “완전 자율 무기 금지”와 “시민 대규모 감시 금지” 레드라인을 굽히지 않아서였다. 같은 날 저녁, OpenAI가 3가지 안전 레드라인을 포함한 조건으로 펜타곤과 계약을 체결했다. 누구는 원칙을 지키다 돈을 잃었고, 누구는 원칙을 포함해서 계약을 따냈다. 이 장면은 “신뢰”가 단순한 마케팅 언어가 아니라 비즈니스 전략의 핵심 변수가 됐다는 걸 보여준다.

에이전트 시대의 신뢰

지금 AI는 채팅창에서 코드베이스 전체로, 단일 응답에서 수백 개의 서브에이전트로 확장되고 있다. Claude Opus 4.8과 함께 출시된 Dynamic Workflows가 그걸 보여준다. 한 번의 프롬프트로 수백 개의 병렬 서브에이전트를 돌리고, 결과를 교차 검증한 뒤 최종 보고까지 한 세션에서 처리한다. “코드베이스 마이그레이션을 분기 단위로 계획하던 걸 며칠 만에 끝낼 수 있다”는 게 Anthropic의 주장이다.

이 규모에서 모델이 거짓말을 하거나 오류를 숨기면 피해가 기하급수적으로 커진다. 그래서 신뢰는 미덕이 아니라 인프라가 된다. 아무리 빠르고 똑똑해도, 믿을 수 없는 에이전트는 쓸 수 없다. 오히려 믿을 수 없는 고성능 에이전트가 더 위험하다.

Anthropic의 가격 정책도 이 방향을 지지한다. Opus 4.8의 일반 가격은 입력 100만 토큰당 5달러, 출력 25달러로 Opus 4.7과 동일하다. Fast mode는 이전 모델 대비 3배 저렴해진 입력 10달러/출력 50달러다. 성능은 올리고 가격은 유지하거나 낮추는 전략이다. 신뢰를 쌓으면서 접근성도 높인다.

아직 끝나지 않은 경쟁

Anthropic은 Opus 4.8 발표와 함께 “몇 주 내에 Mythos가 모든 고객에게 공개될 것”이라고 예고했다. Project Glasswing이 일반화 단계로 넘어간다는 뜻이다. 그 시점이 되면 경쟁 지형이 다시 한번 바뀐다.

지금 판은 성능 경쟁에서 신뢰 경쟁으로 넘어가는 전환점이다. 누가 더 빠르냐, 누가 더 싸냐를 넘어서 누가 더 믿을 만하냐가 차별점이 되고 있다. 그리고 그 신뢰를 수치로 증명하려는 시도가 시작됐다.

Claude Opus 4.8은 거대한 도약이 아니다. Anthropic 스스로 그렇게 말한다. 하지만 “모델이 자기 실수를 솔직하게 말하게 만드는 것”을 가장 중요한 업데이트로 내세운 회사의 방향성은 분명하다. 바둑에서 한 집 이기는 게 결승점을 가르는 것처럼, 신뢰의 축적은 결국 그렇게 쌓인다.

참고 자료

Anthropic 공식 발표: Introducing Claude Opus 4.8 (2026.05.27)
Anthropic Claude Platform 문서: What’s new in Claude Opus 4.8
TechCrunch: Anthropic releases Opus 4.8 with new ‘dynamic workflow’ tool (2026.05.28)
Axios: Anthropic releases new model, Opus 4.8 (2026.05.28)
Simon Willison’s Blog: Claude Opus 4.8: “a modest but tangible improvement” (2026.05.27)
Vellum: Claude Opus 4.8 Benchmarks Explained (2026.05.27)
LinkedIn (Anthony Maio): Claude Opus 4.8: Honesty Is the Feature (2026.05.28)
David Borish: Claude Opus 4.8: Anthropic Ships Honesty Gains, Parallel Agents (2026.05.27)
gpters.org: Claude OPUS 4.8 업데이트 총정리 (2026.05.28)
Time: New Claude Model Triggers Stricter Safeguards at Anthropic (2025.05.21)
Anthropic: Claude’s new constitution (2026.01.20)
HelpNet Security: OpenAI’s GPT-5.5 is out with expanded cybersecurity safeguards (2026.04.23)
UK AISI: Our evaluation of OpenAI’s GPT-5.5 cyber capabilities
개다해: 26년 AI 펜타곤 사태: Anthropic은 거부하고 OpenAI는 서명했다 (2026.03.03)
Anthropic: Claude Opus 4.6 Sabotage Risk Report
Claude Model Release Timeline: Anthropic Claude Model Release Timeline (2026.05.15)
InfoQ: Anthropic Releases Claude Mythos Preview (2026.04.12)
Appwrite Blog: Anthropic just launched Claude Opus 4.8 with fast mode and dynamic workflows (2026.05.28)
Neurom.in: Claude Opus 4 Sparks AI Safety Concerns at Anthropic (2025.05.30)

Claude Opus 4.8 공개로 본 "신뢰 가능한 AI" 경쟁