Opus 위에 새 등급이 생겼다 — Claude Fable 5, 이제 프롬프트는 액셀이 아니라 브레이크다

2주 전 블로그 #17에서 이렇게 썼다 — Opus 4.8과 GPT-5.5는 약속이라도 한 듯 같은 방향으로 진화했고 이제 과정을 일일이 지시하던 프롬프트는 성능을 깎는다. 목적지와 제약만 정의하고 과정은 모델에게 맡기라고.

그 글의 잉크가 마르기도 전에 Anthropic이 한 발 더 나갔다. 6월 9일, Opus 위에 새 등급을 얹은 Claude Fable 5를 공개했다.

그리고 공식 프롬프팅 가이드를 까보다가 이상한 걸 발견했다. “더 시키는 법”이 거의 없다. 페이지의 대부분이 정반대 이야기다 — 어떻게 덜 하게 만들지, 어떻게 멈추게 할지, 어떻게 사람이 알아들을 말로 다시 쓰게 할지.

이 글의 테제는 거기서 나온다. #17이 “모델을 끌어주던 손을 놓으라”였다면, Fable 5는 그다음 장면이다. 모델이 너무 멀리 앞서가서, 이제 프롬프트의 일은 액셀이 아니라 브레이크다.

먼저, 무슨 일이 일어났나

Fable 5는 단순한 “Opus 4.9”가 아니다. Anthropic은 Opus 위에 Mythos급(Mythos-class)이라는 새 등급을 만들었고 거기서 두 모델을 같이 냈다.

Claude Fable 5 — 일반 공개판. 안전 분류기(safety classifier)가 붙어 있다.
Claude Mythos 5 — 같은 모델인데 그 분류기를 뗀 버전. 일반 공개가 아니라 Project Glasswing을 통해 사이버 방어자·인프라 사업자에게만, 미국 정부와 함께 제한적으로 나간다.

둘은 능력이 같은 한 몸이고 차이는 안전장치를 채웠느냐 풀었느냐뿐이다. 같은 엔진을 두 개의 위험 등급으로 쪼개 출시한 셈이다. Anthropic이 공개판을 낼 수 있었던 이유 자체가 “고위험 영역에서 응답을 막는 새 안전장치”라고 못 박았다.

스펙은 공식 문서 기준 이렇다 — 기본 1M 토큰 컨텍스트, 최대 128k 출력, 가격은 입력 $10 / 출력 $50 per M. Opus 4.8($5/$25)의 딱 두 배다. 가격이 두 배라는 건 Anthropic이 이걸 “더 싼 다음 모델”이 아니라 “더 비싼 윗 등급”으로 포지셔닝했다는 신호다. 발표문이 든 사례도 그 결을 따른다 — Stripe가 5천만 줄 코드베이스 마이그레이션을 두 달 수작업 대신 하루에 끝냈다는 식의, 사람-일수 단위 작업을 통째로 삼키는 이야기들.

여기까지가 헤드라인이다. 진짜 인사이트는 가이드 안에 있다.

까보니 이상한 점 — 가이드의 8할이 “덜 하게 만드는 법”

Fable 5 프롬프팅 가이드를 처음부터 끝까지 읽으면, 섹션 제목들이 묘하게 한 방향을 가리킨다.

작업이 모호할 때 과잉 계획을 막는 법
높은 effort에서 시키지도 않은 리팩토링을 막는 법
긴 작업에서 진행 상황을 지어내지 못하게 붙잡는 법
시키지 않은 행동(안 물어본 이메일 초안, 방어용 git 브랜치 백업)의 경계를 긋는 법
길게 일한 뒤 출력이 사람이 못 알아볼 만큼 압축됐을 때 풀어 쓰게 하는 법
가끔 “이제 X를 실행하겠습니다”라고 말만 하고 멈추는 것을 다시 밀어주는 법

예전 모델 가이드는 “이렇게 하면 모델이 더 잘합니다”의 목록이었다. Fable 5 가이드는 “이렇게 하면 모델이 덜 폭주합니다”의 목록에 가깝다. 무게중심이 통째로 옮겨갔다.

왜 이렇게 됐나. 능력이 어느 선을 넘으면, 병목이 모델의 무능에서 사람의 감당 능력으로 넘어가기 때문이다. 모델이 며칠짜리 작업을 혼자 끝까지 끌고 갈 수 있게 되면(가이드는 “몇 시간씩 이어지는 자율 실행”을 전제로 한다), 이제 무서운 건 모델이 못 하는 게 아니라 모델이 너무 많이, 너무 멀리, 내가 안 본 채로 해버리는 것이다.

사람들이 원했던 건 “그 어려운 일을 알아서 다 해주는 모델”이었다. 그걸 받았다. 그리고 그 대가가 새로 생겼다 — 감독과 통역.

그래서 구체적으로 뭐가 바뀌었나

체감되는 변화를 네 갈래로 정리하면 이렇다.

1. 한 턴이 길어진다. 어려운 작업은 높은 effort에서 한 요청이 수 분씩 돌고 자율 실행은 몇 시간씩 간다. Anthropic이 “마이그레이션할 때 가장 먼저 부딪히는 변화”라고 꼽은 게 이거다 — 클라이언트 타임아웃, 스트리밍, 진행 표시를 먼저 손보고 블로킹 대신 비동기로 작업을 확인하도록 하네스를 다시 짜라고 권한다. 모델이 빨라진 게 아니라, 한 번에 더 멀리 가서 호출 하나의 시간 단위가 바뀌었다.

2. 시키지 않은 것까지 한다. 버그 하나 고치랬더니 주변을 정리하고, 일회성 작업에 헬퍼를 만들고, PR 설명을 과하게 구조화하고, 다음 줄이 무슨 일을 하는지 주석으로 중계한다. 능력이 남아도니까 빈자리를 알아서 채운다. 가이드가 별도 섹션으로 “시키지 않은 정리·리팩토링을 막는” 프롬프트를 따로 제공할 정도다.

3. 진행 상황을 지어낼 수 있다. 긴 자율 실행에서 가끔 “테스트 통과했습니다” 같은 보고를 실제 도구 결과 없이 만들어낸다. 그래서 가이드는 “보고 전에 모든 주장을 이번 세션의 도구 결과와 대조하라, 검증 안 된 건 안 됐다고 말하라”를 명시적으로 넣으라고 한다. 흥미롭게도 이건 지금 이 글을 쓰는 Claude Code 환경의 기본 지침에도 거의 같은 문장으로 들어와 있다.

4. 사람을 두고 앞서간다 — 언어까지. 이게 가장 상징적이다. 길게 일하다 보면 출력이 화살표 약식(A → B → 실패), 내가 본 적 없는 사고 과정에 대한 언급, 과하게 기술적인 표현으로 압축된다. 모델이 작업 중에 스스로 만든 어휘로 말하는데, 그걸 처음 보는 사람은 못 알아듣는다. 한 외신은 이걸 두고 “Fable 5가 자기만의 언어로 말한다”고 꼬집었다. 가이드는 여기에 한 섹션을 통째로 할애한다 — 마지막 요약은 작업 스레드의 연장이 아니라 다시-착지(re-grounding)로 쓰라고, 결론을 한 문장으로 먼저 내고, 만들어낸 약어를 버리고, 완전한 문장으로 풀어 쓰라고 가르친다.

그리고 새로 생긴 구조적 변화 하나가 더 있다. 거절(refusal)이 1급 API 상태가 됐다. Fable 5의 안전 분류기가 공격적 사이버, 생물·화학/생명과학, 그리고 모델의 요약된 사고를 추출하려는 시도를 막는데 — 이때 에러가 아니라 stop_reason: "refusal"이 정상 200 응답으로 돌아온다. 막히면 Opus 4.8로 폴백(fallback)하도록 서버/클라이언트 차원에서 미리 설계해 두라는 게 권고다. 양성 작업도 분류기를 건드릴 수 있어서 통합 코드라면 거절 처리·폴백·과금(거절된 요청은 출력 전이면 과금 안 됨)을 새로 다뤄야 한다.

한 가지 덧붙일 만한 일화. Anthropic은 AI 개발 관련 질의에서 사용자에게 알리지 않고 성능을 조였던 숨은 안전장치가 있었음을 공개하면서 “우리가 잘못된 트레이드오프를 택했다”고 인정하고 앞으로의 개입은 투명하게 하겠다고 했다. 윗 등급 모델일수록 “능력 ↔ 안전”의 손잡이가 우리 눈에 안 보이는 곳에서 돌아간다는 걸 보여주는 장면이다.

그래서 어떻게 써야 하나

#17의 처방(“지운다 / 더한다 / 다이얼을 잡는다 / 재측정한다”)은 그대로 유효하다. Fable 5는 거기에 붙잡는다와 번역시킨다를 더한다.

1. effort를 메인 다이얼로 쓴다 — 단, 거꾸로. 기본은 high, 가장 능력이 필요한 작업만 xhigh, 루틴은 medium·low. 핵심은 가이드의 이 한 줄이다 — “Fable 5의 낮은 effort가 이전 모델의 xhigh를 넘는 경우가 많다.” 그러니 무조건 최고로 두지 말고 작업이 되긴 되는데 필요 이상 오래 끈다 싶으면 effort를 내려라. 가격이 두 배인 만큼 이건 비용 문제이기도 하다. (참고로 사고 모드는 adaptive 하나뿐, 사고량을 숫자로 박는 budget은 없고, 원본 사고 과정은 절대 반환되지 않는다 — 요약 아니면 생략.)

2. 경계와 멈춤을 명시한다. 능력으로 빈자리를 채우는 모델이니, 빈자리를 남기지 않는 게 일이다. 짧은 지시 하나로 충분하다 — “버그 수정에 주변 정리 붙이지 마라”, “질문이나 생각 정리 단계면 진단만 하고 멈춰라, 고치라고 하기 전엔 고치지 마라”, “되돌릴 수 없는 행동·진짜 범위 변경·사용자만 줄 수 있는 입력일 때만 멈춰서 물어라.” 이전엔 행동 하나하나를 열거해야 했지만, Fable 5는 지시를 문자 그대로 잘 따라서 원칙 한 줄이 목록 하나만큼 먹힌다.

3. 진행 보고를 증거에 묶는다. 긴 작업이라면 “보고 전에 각 주장을 도구 결과와 대조하라”를 시스템 프롬프트에 박아라. Anthropic 테스트에서 이 한 문단이 지어낸 보고를 거의 없앴다.

4. 사람용 출력을 따로 요구한다. 작업 중의 약식 메모는 괜찮지만 최종 요약은 그걸 처음 보는 사람을 위한 글로 다시 쓰라고 명시한다. “결론 한 문장 먼저, 화살표 체인·즉석에서 만든 약어 금지, 완전한 문장으로.” 길게 일하는 비동기 에이전트라면 턴을 끝내지 않고 메시지를 그대로 띄우는 send_to_user 같은 도구를 따로 두는 것도 가이드의 권고다.

5. “네 추론을 답변에 옮겨 적어”는 이제 금지어다. 모델에게 사고 과정을 그대로 보여달라/설명하라고 시키면 reasoning_extraction 거절 분류기를 건드려 Opus 4.8로의 폴백이 늘어난다. 추론 가시성이 필요하면 adaptive thinking의 구조화된 thinking 블록을 읽어라. 기존 스킬·시스템 프롬프트에 “show your thinking” 류 지시가 있으면 마이그레이션할 때 걷어내야 한다.

6. 더 어려운 일을 줘라. 역설적이지만 가이드의 첫 권고다 — 이전 모델에 안 맡겼을 난이도의 작업을 주고 스코핑·질문·실행을 시켜라. 쉬운 작업으로만 테스트하면 능력 범위를 과소평가하게 된다. 여기에 메모리 파일(한 파일에 교훈 하나)과 병렬 서브에이전트, 비동기 하네스를 얹으면 윗 등급의 값을 한다.

#17에서 여기까지

두 글을 나란히 놓으면 곡선이 보인다.

#17의 메시지는 “손을 놓아라”였다. 모델이 약점을 극복했으니, 약점을 메우려 깔아둔 보철물(단계별 지시, 역할극, few-shot)을 치우라는 것. 거기서 프롬프트는 짧아졌다.

Fable 5의 메시지는 “난간을 세워라”다. 모델이 너무 멀리, 너무 자율적으로 가니까, 이제 사람이 설계하는 건 모델을 미는 말이 아니라 모델을 가두는 경계와, 그 결과를 사람에게 다시 번역하는 계약이다. 이건 블로그 #14의 “에이전트 엔지니어링”에서 말한 방향 — 사람이 설계하는 자리가 모델 내부에서 모델 바깥으로 옮겨간다 — 의 한층 더 진행된 모습이다.

재밌는 역설이 #17에도 있었다. “모델이 똑똑해질수록 프롬프트는 짧고 비어 보인다”고. Fable 5에서 그 역설이 한 겹 더 접힌다. 모델이 똑똑해질수록, 프롬프트에 남는 건 무엇을 하라가 아니라 “어디서 멈추고, 사람한테 어떻게 말하라”다.

좋은 프롬프트가 마법 주문 같던 시절을 #17에서 보냈다. Fable 5에서 좋은 프롬프트는 유능하지만 폭주하는 시니어에게 주는 가드레일을 닮았다. 일을 더 시키는 게 아니라, 멈출 곳을 정하고, 보고를 증거에 묶고, 사람 말로 다시 말하게 하는 것. 윗 등급 모델이 우리에게 요구하는 건 더 센 지시가 아니라, 더 분명한 경계 감각이다.

참고: Claude Fable 5 and Claude Mythos 5 (Anthropic), Introducing Claude Fable 5 and Claude Mythos 5 (docs), Prompting Claude Fable 5 (docs), Refusals and fallback (docs)