AI가 AI를 만들기 시작했다 — 그리고 병목은 이미 '판단'으로 옮겨갔다

Anthropic이 “When AI Builds Itself”라는 글을 냈다. 새로 만든 Anthropic Institute가 내는 자료인데, 주제가 무겁다 — 재귀적 자기개선(recursive self-improvement, RSI). AI가 사람 손을 거치지 않고 자기 다음 세대를 설계하고 훈련하는 단계다.

이런 글은 보통 SF처럼 읽힌다. 그런데 이 글이 불편한 건 미래 시나리오 때문이 아니다. 자기 회사의 지금 숫자를 까서 보여주기 때문이다.

이 글의 테제는 거기서 출발한다. RSI가 올지 안 올지는 아직 아무도 모른다. 하지만 그걸 향한 곡선 위에서 이미 일어난 변화가 있고, 그게 더 실감난다. 코드를 쓰는 일은 거의 공짜가 됐다. 병목은 판단하는 쪽으로 옮겨갔다. 그리고 가장 불편한 부분은, 그 마지막 보루인 판단마저 같은 곡선 위에 있다는 것이다.

먼 얘기 같지만, 숫자는 “이미”라고 말한다

Anthropic이 공개한 내부 데이터는 추상적인 벤치마크가 아니라 자기 회사의 작업 기록이다.

프로덕션 코드의 80% 이상을 Claude가 쓴다(2026년 5월 기준). 2025년 2월 전만 해도 한 자릿수 퍼센트였다.
엔지니어 1인당 분기 코드 산출이 2년 만에 약 8배가 됐다(2024년 대비 2026년 2분기).
직원 다수가 모델의 도움으로 자기 산출이 약 4배가 됐다고 추정한다.

벤치마크 쪽도 같은 방향이다. 모델이 혼자 끝까지 해내는 작업의 시간 지평(time horizon), 즉 “사람이라면 몇 분짜리냐 몇 시간짜리냐”가 약 4개월마다 두 배로 늘고 있다. 전에는 7개월이었다. 곡선이 더 가팔라졌다는 뜻이다. 코딩 벤치마크 SWE-bench는 2년 만에 천장을 쳤고, 연구 재현을 평가하는 CORE-Bench도 20%대에서 15개월 만에 포화에 가까워졌다.

여기서 한 가지 짚을 게 있다. 이건 “AI가 똑똑해졌다”는 흔한 이야기가 아니다. AI가 AI를 만드는 일에 똑똑해졌다는 이야기다. 자기 자신을 개선하는 루프 안으로 능력이 들어왔다는 것 — 그게 RSI 논의의 출발점이고 위 숫자들은 그 루프가 이미 돌기 시작했다는 증거로 제시된다.

병목이 옮겨갔다 — 실행은 공짜, 사람은 판단

숫자보다 중요한 건 그것이 일하는 방식을 어떻게 바꿨는가다.

보고서가 그리는 단계는 단순하다. 2021~2023년엔 사람이 코드를 다 썼다. 2023~2025년엔 챗봇이 조각을 내놓고 사람이 가져다 붙였다. 2025~2026년엔 코딩 에이전트가 파일을 직접 쓰고 고쳤다. 지금은 에이전트가 코드를 실행하고 다른 에이전트에게 일을 넘긴다. 그다음 칸은 비어 있다 — 에이전트가 다음 모델을 만들고 훈련한다.

이 흐름의 핵심은 실행의 가격이 0에 수렴한다는 것이다. 아이디어를 코드로 옮기고, 테스트하고, 평가하는 일을 모델이 사람보다 한 자릿수 빠르게 해낸다. 그러면 무엇이 남는가. 보고서가 인용한 한 엔지니어의 말을 빌리면, 지금 사람의 비교우위는 큰 그림을 보고 눈앞의 작업 너머를 생각하는 것에 있다. 무엇을 풀지, 어느 방향이 맞는지, 결과가 쓸 만한지를 정하는 일.

바꿔 말하면 병목이 코드 작성에서 판단으로 옮겨갔다. 보고서는 새 병목을 두 개로 짚는다 — 쏟아지는 코드를 사람이 다 리뷰하지 못하는 것, 그리고 어떤 연구를 다음에 할지 고르는 판단력. 실행이 공짜가 되면, 희소해지는 건 “무엇이 맞는지 아는 능력”이다.

이건 바로 전 글에서 다룬 것과 같은 자리다. 블로그 #21에서 Fable 5를 두고 “프롬프트의 일이 액셀에서 브레이크로 바뀌었다”고 썼는데 — 한 모델 안에서 일어난 그 변화가, 산업 전체 규모로 똑같이 일어나고 있다. 사람의 자리는 미는 쪽이 아니라 고르고, 멈추고, 검증하는 쪽이다.

불편한 지점 — 그 판단마저 곡선 위에 있다

여기까지면 “사람은 판단에 집중하면 된다”는 익숙한 위안으로 끝났을 것이다. 보고서가 불편한 건 그 위안을 그대로 두지 않기 때문이다.

판단력도 측정되고 있고, 올라가고 있다. 실제 연구 세션에서 “다음 단계로 뭘 할까”를 두고 모델의 선택이 사람의 선택을 이긴 비율이 2025년 11월 51%에서 2026년 4월 64%로 올랐다. 실험 최적화에서 모델이 낸 속도 향상은 1년 사이 3배에서 52배로 뛰었다(숙련된 사람은 같은 작업에서 4배 수준). 코드 품질도 2025년 말엔 사람보다 못했지만 지금은 비슷해졌고, Anthropic은 1년 안에 사람보다 확실히 나아질 것으로 본다.

마지막 보루라던 “판단·취향(taste)“이 자동화의 다음 후보로 올라온 것이다. 보고서는 여기서 솔직하다 — 지금의 훈련 방식이 그 연구 감각을 정말 풀어낼지는 아직 모른다고 인정한다. 그리고 세 가지 미래를 나란히 놓는다.

정체. 스케일링의 수익이 줄고, 칩·전력 같은 물리적 제약이 발목을 잡는다. 적응할 시간이 가장 많지만 Anthropic은 가능성이 낮다고 본다.
복리적 효율 향상(가장 가능성 높음). AI가 실행을 맡고 사람은 방향과 검증을 맡는다. 100명짜리 회사가 수만 명 몫을 내고, 생산성 혁명이 온다. 동시에 감시·조작 같은 대규모 오용 위험도 같이 커진다.
완전한 RSI. 속도를 정하는 건 오직 가용 컴퓨트뿐이고 사람의 역할은 감독·검증으로 쪼그라든다. 과학 전반이 뒤집힐 수 있지만 정렬(alignment)이 그 가속을 따라갈 수 있을지는 불확실하다.

Anthropic의 처방은 강하다. 자기 회사만 멈추는 건(unilateral pause) 선두만 바꿀 뿐 효과가 없으니, 여러 나라·여러 연구소가 서로 검증 가능하게 동시에 속도를 늦추는 조율된 중단이 필요하다는 것. 검증 가능한 조율이 생기면 자기들도 늦추겠다고 약속한다. 핵 군축과 달리 훈련 실행은 숨기기 쉬워서 더 어렵다는 단서도 단다.

그래서 무엇을 봐야 하나

이 글이 정책 제언으로 끝나는 거대담론이라, 개인이나 팀에게는 멀게 느껴질 수 있다. 그런데 위안을 걷어내고 보면 실무적으로 분명한 게 하나 있다.

지금 길러야 할 역량은 실행이 아니라 판단이다. 코드를 빨리·많이 쓰는 능력은 빠르게 흔해지고 가격이 떨어진다. 희소해지는 건 무엇을 풀지 고르는 눈, 쏟아지는 결과물을 리뷰하고 틀린 걸 잡아내는 눈, 큰 그림을 보고 방향을 정하는 눈이다. 이건 블로그 #11의 “인지적 부채”나 #14의 “에이전트 엔지니어링”에서 이어온 이야기의 연장선이다 — 사람이 설계하는 자리가 코드 안에서 코드 바깥의 계약·판단으로 옮겨간다.

다만 한 가지는 솔직하게 남겨두자. 그 “판단”조차 영원한 피난처는 아니라는 것을, 이번엔 다른 누구도 아닌 모델을 만드는 회사가 자기 데이터로 말하고 있다. 그래서 이 글은 안심시키는 글이 아니다. 위안의 마지막 칸까지 곡선 위에 올려둔, 일부러 불편하게 만든 글이다.

RSI가 정말 올지는 아무도 모른다. 하지만 그 곡선의 앞부분은 이미 우리 일터에 들어와 있다. 멀리 있는 결말을 두려워하기 전에, 가까이 와 있는 변화 — 실행은 공짜가 됐고 판단이 희소해졌다 — 부터 일하는 방식에 반영하는 게 먼저다.

참고: Anthropic Institute — When AI Builds Itself