Scriptum

제가 생각하기에, 지금 말씀하시는 프레임워크는 당연히 의미가 있어 보입니다. 저희는 분명 AGI로 나아가는 중이고, 지금 시점에서 이 세기 안에 AGI를 달성하게 될 거라는 것에 누구도 반대하지 않는다는 게 핵심적인 부분이라고 생각합니다.

핵심은, 말씀하신 대로 지수적인 성장의 끝에 다다른 것처럼 보이는데, 다른 분은 보시기에 아직 진전이 있다고 말씀하시죠. 2012년부터 꾸준히 진전이 있었고, 2035년쯤에는 인간과 유사한 에이전트가 갖춰질 것이라고 말씀하시는 겁니다.

그래서 제가 이해하고 싶은 것은, 당신이 보고 계신 것이 무엇인지, 그 결과로 ‘아, 당연히 진화 과정에서 나타나는 현상들이 있구나’ 또는 ‘사람이 평생에 걸쳐 배우는 것과 같은 지식이 이 모델들에 내재되어 있구나’라고 생각하게 만드는 것이 무엇인지 알고 싶습니다.

그리고 왜 1년 안에 나올 거라고 생각하는지, 10년은 아니라고 생각하는지, 음... 저는 사실 두 가지 경우로 보고 있습니다. 마치 두 가지 주장을 할 수 있는 것처럼 말이죠. 그중 하나가…

상대적인 강함과 약함이 있는데, 저는 약한 주장을 먼저 시작하는 것이 좋다고 생각합니다. 2019년쯤에 처음으로 스케일링을 봤을 때, 솔직히 확신이 없었어요.

아시다시피, 이게 완전히 반반의 확률이었던 거죠, 그렇죠? 제가 봤을 때, 제가 생각하는 것보다 훨씬 더 가능성이 높다고 생각했어요.

정말 굉장하네요. 다른 분들은 상상도 못 하실 거예요. 아마 50% 정도의 확률이 있을지도 모르겠네요.

음, 말씀하신 대로, 대략 10년 안에 데이터 센터 내에서 제가 '천재 국가'라고 부를 만한 수준에 도달할 수 있지 않을까 생각합니다.

거의 90% 정도 완료되었어요. 세상이 워낙 예측 불가능해서 90% 이상으로 더 높이는 게 쉽지 않네요.

아마도 줄어들 수 없는 불확실성은 아마 95% 정도의 상황에서 발생할 수 있을 것 같아요. 예를 들어, 여러 회사에서 내부적으로 혼란이 있고 아무런 변화가 없을 수도 있다는 식으로요. 잘 모르겠지만, 그런 경우도 있을 수 있겠죠.

그리고 나서 대만이 침공을 당하고, 모든 반도체 공장들이 미사일에 의해 파괴될 수 있다는 상황이 발생하면, 아마 그때는 그런 상황에 적응하게 될 겁니다.

네, 아시다시피, 5% 정도의 가능성이 있는 시나리오를 상상해 볼 수도 있습니다. 아니면, 상황이 10년 정도 지연되는 5%의 세계를 만들 수도 있겠죠.

그게 아마 5% 정도 될 거예요. 또 다른 5%는 제가 검증 가능한 과제에 대해서는 매우 확신하고 있다는 거죠. 그래서 코딩 쪽은, 그 irreducible uncertainty만 제외하면, 1년에서 2년 안에 거기 도달할 거라고 생각해요.

10년 안에 저희가 처음부터 끝까지 코딩을 완벽하게 수행할 수 없을 가능성은 전혀 없습니다.

저에게 남아있는 아주 작은 의문점, 아주 긴 시간 척도에서도, 검증할 수 없는 과제들에 대한 것인데, 예를 들어 화성 탐사 계획처럼, 아시다시피요.

CRISPR과 같이 과학적 발견을 하거나, 소설을 쓰는 것과 같은 근본적인 일을 하고 있습니다.

그 업무들을 확인하기가 좀 어렵네요. 저희가 그 목표에 도달할 수 있는 확실한 방법을 가지고 있다고 거의 확신하지만, 약간의 불확실성이 존재한다면, 그 불확실성이 존재하는 것입니다.

10년 뒤에 대해서는, 음, 제가 90% 정도 확신하는데요, 그 정도면 꽤 확실하다고 할 수 있겠어요. 2035년까지는 분명히 일어날 거라고 단정적으로 말하는 건 정말 미친 짓이라고 생각합니다.

음, 제정신이 있는 세상이라면, 이건 주류 밖에 있는 게 당연할 거예요. 그런데 검증에 대한 강조는 제가 이 모델들이 일반화되었다는 믿음이 부족하다는 것을 암시하는 것 같아요.

사람을 생각해 보면요, 우리는 검증 가능한 보상을 받는 일과 그렇지 않은 일 모두 잘 하거든요. 그러다 보면, '아, 이제 시작한 게 아니야.' 라면서요. '아니에요, 아니에요, 아니에요.'라고 거의 확신하는 이유가 바로 이거예요. 이미 검증되는 것에서 검증되지 않는 것으로 상당한 일반화가 이루어지는 것을 보고 있잖아요.

네, 이미 그런 현상을 목격하고 있습니다. 다만, 선생님께서 말씀하시기를 이것이 스펙트럼으로 나뉘어서 어떤 분야에서 더 큰 진전이 있을지 구분될 것으로 보입니다.

그런데 제 생각에는, 인간이 발전하는 방식과는 좀 다른 것 같아요. 성공하지 못하는 세계나, 목표에 도달하지 못하는 세계는, 우리가 검증 가능한 모든 것을 해내는 세계일지도 모릅니다.

그리고 나서, 많은 것들이 일반화되긴 하지만, 완전히 거기에 도달하지 못하는 것 같아요. 완전히, 음, 이쪽 면의 상자를 채우지 못하는 것 같고요.

이것은 단순 이분법적인 문제는 아닙니다. 그런데 제 생각에는 일반화가 잘 안 되는 세상에서, 표준 프로필 도메인만 다루더라도, 그런 세상에서 소프트웨어 엔지니어링을 자동화할 수 있을지 명확하게 보이질 않습니다.

어떤 면에서는, 인용하자면, 소프트웨어 엔지니어라고 할 수 있습니다.

하지만, 소프트웨어 엔지니어로서 당신의 역할에는 장문의 비전과 다양한 것에 대한 메모를 작성하는 것도 포함될 수 있어요. 음, 저는 그런 게 소프트웨어 엔지니어의 업무라고 생각하지 않아요. 그건 회사 차원의 업무라고 생각해요.

그런데, 저는 소프트웨어 엔지니어링이 디자인 문서나 다른 그런 것들을 포함한다고 생각해요. 그런데, 모델들이 꽤 괜찮게 잘 쓰고 있잖아요. 댓글을 쓰는 것도 이미 꽤 잘 하더라고요.

그리고 다시 말씀드리지만, 여기서는 제가 믿는 것보다 훨씬 약한 주장을 하고 있습니다. 제가 말씀드리고 싶은 건, 소프트웨어 엔지니어링 측면에서는 거의 다 왔다고 봐도 될 것 같습니다. 거의 다 왔어요.

어떤 지표로 보느냐에 따라 다르죠. 하나는 인공지능이 얼마나 많은 코드를 작성하는지, 그런 지표가 있을 수 있다는 거예요. 그리고 컴파일러가 소프트웨어 공학 역사 속에서 생산성 향상이라는 다른 부분을 고려한다면, 컴파일러가 모든 소프트웨어 라인을 작성하죠.

하지만 작성된 코드 라인의 양과 생산성 향상이 얼마나 큰지에는 차이가 있습니다. 아, 네. 그리고, 거의 다 왔다는 건, 즉 생산성 향상이 얼마나 큰지, 단순히 작성된 코드 라인의 양이 아니라, 그런 의미입니다.

네, 네. 사실 제가 말씀하신 부분에 동의해요. 코딩과 소프트웨어 엔지니어링에 대한 저의 여러 예측들이 사람들에게 계속 오해받고 있다고 생각해요.

음, 제가 스펙트럼을 설명드리도록 하겠습니다.

음, 기억하기론 대략 8개월에서 9개월 정도 이전이었던 것 같은데, 그때 AI 모델이 코드 라인의 90%를 작성하게 될 거라고 말씀드렸었죠. 3개월에서 6개월 안에 그런 일이 최소한 몇몇 곳에서는 실제로 벌어진 것 같습니다.

앤쓰로픽에서 일어났고, 저희 모델을 사용하는 많은 사람들에게서도 일어났습니다. 하지만 그거야말로 굉장히 약한 기준이죠?

사람들은 제가 마치 90%의 소프트웨어 엔지니어가 필요 없어질 거라고 말하는 줄 알았어요. 그런 것들은 완전히 다른 차원이에요, 그렇죠?

모델이 코드의 90%를 작성하고, 100%를 작성한다고 볼 수 있는데, 이는 생산성에서 상당한 차이를 의미합니다.

전체 엔드투엔드 소프트웨어 엔지니어링 작업의 90%에 달하는, 예를 들어 컴파일, 클러스터 및 환경 설정, 기능 테스트, 메모 작성과 같은 모든 작업들이 모델에 의해 작성되고 있습니다.

오늘날의 모든 소프트웨어 엔지니어링 작업이 모델에 의해 작성됩니다. 그리고 그렇게 된다고 해서 소프트웨어 엔지니어가 직업을 잃는다는 의미는 아닙니다.

새로운 더 높은 수준의 작업을 할 수 있게 되었고, 그걸 관리할 수 있게 됐어요. 그리고 스펙트럼 아래로 더 내려가면 SWE에 대한 수요가 90% 줄어들 것 같은데, 그런 일도 벌어질 거라고 생각해요.

하지만 이것은 스펙트럼입니다. 그리고 저는 기술의 사춘기라는 책에서 농업을 예시로 이와 같은 스펙트럼을 다루었습니다.

네, 저도 말씀하신 부분에 완전히 동의합니다. 서로 굉장히 다른 기준들이지만, 저희는 정말 빠르게 진행하고 있는 것 같습니다.

제 생각에는, 제시하신 비전의 일부가 90에서 100으로 가는 것 같습니다. 첫째, 빠르게 진행될 겁니다. 그리고 둘째, 그것이 엄청난 생산성 향상으로 이어진다는 거죠.

새 프로젝트를 시작할 때, 사람들이 클라우드 코드를 사용하거나 하는 경우가 많은 것 같아요. 세상에 소프트웨어 르네상스가 일어나는 걸까요? 기존에는 존재하지 않았을 새로운 기능들이 많이 나오는 걸까요?

그리고 지금까지는 그런 점이 보이지 않는 것 같아서, 솔직히 조금 궁금하게 만드네요. 비록 클라우드 코드를 직접 개입해야 할 필요가 없었던 적도 있지만, 세상에는 그런 일들이 있을 수 있다는 생각이 듭니다.

복잡한 업무들은 복잡하며, 자립적인 시스템의 피드백 루프를 닫는 것, 소프트웨어 작성과 같이 어떤 방식으로든 얼마나 더 큰 이득을 얻을 수 있을지 궁금합니다.

음, 그거랑 그래서 어쩌면, 그게 우리들이 그 나라의 천재들의 나라에 대한 평가를 희석하게 만들 수도 있겠네요. 음, 사실, 저는 동시에 당신의 의견에 동의하고, 그렇게 생각하는 것에 동의합니다.

이런 일들이 바로 일어나지 않는 이유가 있지만, 동시에 효과는 매우 빠를 것이라고 생각합니다.

그러니까, 뭐랄까, 두 가지 양극이 있을 수 있죠. 한쪽은, 아시겠지만, 인공지능이 발전하지 못할 거라는 거죠. 그리고 다른 한쪽은 경제적으로 확산되는 데, 정말 오랜 시간이 걸릴 거라는 거죠?

경제적 확산이 마치 AI 발전이 없거나, 혹은 AI 발전이 중요하지 않다는 이유로 설명되는 유행어들 중 하나가 되어버렸습니다. 그리고 다른 주장으로는, 자기 개선적인 재귀적 발전이 이루어질 거라는 이야기도 나오죠. 음, 이 모든 걸 한 번에 그려내기는 좀 어려울 것 같습니다.

지수 함수 곡선 상에서, 아시다시피 좋고, 다이슨을 갖게 될 겁니다.

제가 말씀드리자면, 지금 제가 이야기하는 관점을 완전히 과장하고 있는데요, 양 극단이라는 두 가지 경향이 있습니다.

하지만 저희가 처음부터 보아왔듯이, 적어도 Anthropic 내부적으로 보면, 연간 10배에 달하는 매출 성장률이 꾸준히 나타나고 있습니다, 맞죠?

음, 아시다시피, 2023년에는 거의 제로에서 천만 달러까지 올랐습니다.

2024년에는 1억 달러에서 10억 달러로 늘었고, 2025년에는 10억 달러에서 90억에서 10억 달러 정도 됐죠. 그리고 나서… 여러분은 그냥 여러분의 제품으로 10억 달러를 사뒀어야 했어요. 그러면 그냥 깔끔하게 10억 달러를 가지고 있을 수 있었을 텐데.

그리고 올해 첫 달은, 그 기하급수적인 증가처럼, 둔화될 것 같지만, 오히려 몇십억 원을 더 추가로 벌었네요. 1월에 매출을 또 몇십억 원이나 늘린 거죠.

음, 그러니까, 당연히 그 곡선이 영원히 이어질 수는 없죠, 그렇죠?

아시다시피, GDP는 결국 크기가 제한되어 있잖아요. 올해는 조금 휘어지는 것 같기도 하고요. 그런데 그건 정말 빠른 곡선이죠, 그렇죠?

음, 정말 빠른 곡선처럼 느껴지네요. 규모가 전체 경제로 확장되더라도 꽤 빠른 속도를 유지할 것 같아요.

음, 그러니까, 저희는 경제적인 확산 때문에, 그리고 마무리해야 하는 필요성 때문에, 즉시적인 것이 아니라 어느 정도 시간이 걸리는, 중간 단계에 대해서도 고려해야 한다고 생각합니다.

아, 이런, 계속 해야 하는 상황이라 그렇죠. 기업 내에서 변경 관리를 해야 하거든요. 제가 이것저것 설정해 놓긴 했는데, 아, 좀 번거롭네요.

이걸 제대로 작동하게 하려면 보안 권한 설정을 변경해야 할 것 같아요. 아, 예전에 사용하던 소프트웨어가 있었는데, 모델이 컴파일되고 출시되기 전에 검사를 하는, 그런 종류의 프로그램이었거든요. 그걸 다시 작성해야 할 것 같습니다.

네, 모델이 그렇게 할 수 있습니다. 하지만 모델에게 그렇게 하도록 지시해야 하고, 그렇게 하려면 시간이 걸립니다.

지금까지 보아온 모든 것들이, 가능성의 핵심을 이루는 매우 빠른 지수 함수가 존재한다는 생각과 부합한다고 생각합니다.

그리고 나서, 그 이후로 경제 전반에 모델이 확산되는 또 다른 빠른 지수적 증가가 있습니다. 즉시 이루어지는 것은 아니지만, 이전 기술보다 훨씬 더 빠르게 진행될 것입니다.

하지만 한계는 분명히 존재하며, 그리고 그리고 그리고... 이러한 부분이 있습니다. 제가 Anthropic 내부를 들여다보거나, 저희 고객분들의 빠른 도입을 볼 때, 무한정 빠른 것은 아닙니다. 혹시 제 개인적인 의견을 말씀드려도 될까요?

네, 맞아요. 디퓨전이 그렇다고 변명하는 사람들이 사용하는 방식 같아요. 모델이 어떤 걸 해내지 못할 때, 마치 디퓨전 문제인 것처럼 설명하려는 거죠.

하지만 그런 다음에는 인간과의 비교를 활용해야 합니다. 인공지능이 가진 고유한 장점들을 고려할 때, 새로운 인공지능이 적응하는 것은 새로운 인간이 적응하는 것보다 훨씬 쉬운 문제가 되어야 할 것이라고 생각합니다. 즉, 인공지능은 불과 몇 분 안에 여러분의 슬랙과 드라이브 전체를 읽을 수 있습니다.

다른 복제본들이 가진 모든 지식을 공유할 수 있어요. 인공지능을 고용할 때 부정적인 선택 문제가 발생하지 않죠. 검증된 인공지능 모델의 복제본을 고용하면 되니까요. 사람을 고용하는 건 훨씬 더 번거롭거든요.

사람들은 항상 사람들을 고용하죠, 맞습니까? 우리는 사람들에게 50조 달러 이상의 임금을 지급합니다. 사람들은 유용하기 때문이죠. 원칙적으로는 AI를 경제에 통합하는 것이 사람을 고용하는 것보다 훨씬 쉬울 텐데 말이죠. 마치 확산이라고 말하자면, 설명이 잘 안 되는 것 같습니다.

확산이 정말 실현되는 것이라고 생각합니다. 그리고 인공지능 모델의 한계에만 국한되는 것이 아닐 수도 있겠지요.

음, 또 어떤 사람들은 확산을 일종의 유행어처럼 써서 이것이 대단한 일이 아니라고 말하기도 합니다. 제가 말씀드리는 게 그런 게 아니에요. 이전 기술이 확산되는 속도만큼 인공지능도 확산될 거라는 그런 이야기가 아니에요.

인공지능이 이전 기술보다 훨씬 빠르게 확산될 거라고 생각하지만, 무한정 빠르게는 아닐 겁니다. 예를 들어 설명해 드릴게요. 클라우드 코드를 예로 들어볼까요.

클로드 코드처럼 설정하기도 정말 간편합니다. 개발자라면, 그냥 바로 클로드 코드를 시작해서 사용하실 수 있습니다.

대기업 개발자가 개인 개발자 또는 스타트업 개발자와 마찬가지로 클라우드 코드를 빠르게 도입하는 데에는 아무런 이유가 없을 것입니다.

저희는 최대한 홍보하려고 노력하고 있습니다, 그렇죠? 저희는 기업에 클로드 코드를 판매하고, 큰 기업들, 예를 들어 큰 금융 회사나 제약 회사 같은 곳에 판매하고 있습니다.

네, 모든 회사들, 특히 클로드 코드를 훨씬 더 빠르게 도입하고 있어요. 기업들이 새로운 기술을 도입하는 것보다 훨씬 빠르죠? 하지만, 시간이 걸리는 거죠.

클로드 코드나 코워크와 같은 특정 기능이나 제품은 트위터를 자주 사용하는 개발자들, 그리고 시리즈 A 초기 단계의 스타트업들에게 널리 사용될 가능성이 높습니다.

대규모 식품 판매 기업에 도입되기보다는 훨씬 더 빠르게 적용될 가능성이 높습니다.

몇 가지 이유들이 있어요. 법률적인 절차를 거쳐야 하고, 모든 사람들을 위해 프로비저닝해야 하고, 보안 및 규정 준수를 통과해야 하죠, 아시겠지만요.

AI 혁명으로부터 조금 더 멀리 떨어져 있는 회사 경영진들은, 아시겠지만, 미래를 내다보지만, '우리도 5천만 달러를 투자하는 게 합리적이겠어'라고 말해야 합니다. 이것이 바로 이 클라우드 코딩 기술이 하는 일이고, 이것이 우리 회사에 도움이 되는 이유입니다.

이게 우리를 더 생산적으로 만들어주는 이유예요. 그리고 나서 그들은 그 아래 두 단계에 있는 사람들에게 설명해야 하고, 저희는 3000명의 개발자가 있다고 말해야 해요. 자, 저희는 이 기능을 개발자들에게 어떻게 배포할지 설명할 거예요. 그리고 저희는 매일 이런 대화를 해요.

알다시피, 저희는 앤트로픽의 수익을 연간 10배가 아닌 20배 또는 30배로 늘리기 위해 최선을 다하고 있어요. 아시다시피, 많은 기업들이 이 제품이 정말 생산성이 높다고 말씀하시고 계세요.

알아요, 보통 저희의 구매 프로세스를 좀 줄이기로 할 거예요, 그렇죠? 그분들은 저희가 그냥 일반 API만 팔려고 했을 때보다 훨씬 빠르게 움직이고 있어요.

하지만 쿼드 코드라는 제품은 더욱 매력적이라고 생각합니다. 물론, 무한정 매력적인 제품이라고 할 수는 없으며, 데이터 센터 내에서 AGI나 강력한 인공지능, 혹은 천재들의 노력으로도 무한정 가능할 것이라고는 생각하지 않습니다.

매우 매력적인 제품이 될 것이며, 심지어 수백억 달러 규모일 때에도 연간 세 배에서 열 배까지 성장할 수 있을지도 모르겠습니다. 이는 극히 어렵고, 역사상 전례가 없는 일이지만, 무한정 빠르게 진행되지는 않을 것이라고 생각합니다.

약간의 속도 저하가 있고, 아마 이것이 제 주장이 아닐 수도 있겠지만, 어떤 사람들은 종종 이러한 점에 대해 이야기합니다. '가능성이 부족하다'라고 말이죠. 하지만 디퓨전 방식 때문이라면, 사실상 AGI에 근접했다고 볼 수도 있습니다. 하지만 저는 그렇게 생각하지 않습니다.

만약 데이터 센터에 천재들의 나라가 있었다면, 그리고 만약 귀사의 데이터 센터가 천재들의 나라를 도입하지 않았다면, 만약 데이터 센터에 천재들의 나라가 있었다면 저희는 그걸 알 수 있을 겁니다.

네, 맞아요. 만약에 데이터 센터에 천재 국가가 있다면 우리는 그걸 알 거예요. 이 방에 있는 모든 사람도 알 거고, 워싱턴에 있는 모든 사람도 알 거예요.

음, 아시겠지만, 농촌 지역에 계신 분들은 잘 모를 수도 있지만, 저희는 알고 있습니다.

지금은 그것을 가지고 있지 않습니다. 매우 명확합니다. 다리오 씨가 말씀하신 것처럼, 일반화하려면 다양한 현실적인 작업 환경에서 훈련해야 합니다.

예를 들어 세일즈 에이전트의 경우, 가장 어려운 부분은 특정 세일즈포스 데이터베이스에서 버튼을 누르도록 가르치는 것이 아닙니다. 애매모호한 상황에서 에이전트의 판단력을 훈련시키는 것이죠. 수천 개의 리드가 있는 데이터베이스에서 어떤 리드가 가장 유망한지 어떻게 판단해야 할까요?

어떻게 실제로 연락을 취하는 걸까요? 상대방이 연락을 끊으면 어떻게 해야 할까요? 한 AI 연구실에서 영업 사원을 훈련하고 싶어 했을 때, Labelbox는 여러 Fortune 500 영업 사원들을 불러들여 다양한 강화 학습 환경을 구축했습니다.

영업 담당자가 잠재 고객과 상호작용하는 수천 가지 시나리오를 만들었는데, 이는 다른 인공지능이 역할을 맡아 연출되었습니다.

레이블박스는 이 고객용 AI가 여러 가지 다양한 페르소나를 갖도록 했습니다. 콜드콜을 할 때, 상대방에 대해 전혀 알 수 없기 때문입니다.

다양한 가능성을 처리할 수 있어야 합니다. Labelbox의 영업 전문가들은 이러한 대화들을 실시간으로 모니터링하며, 실제 고객이 할 법한 행동을 하도록 역할 연기 에이전트를 지속적으로 조정하고 있습니다.

레이블박스는 업계 누구보다 빠르게 반복 작업이 가능했어요. 이건 매우 중요합니다, 왜냐하면 강화 학습은 경험적인 과학이기 때문이에요. 해결된 문제가 아니에요. 레이블박스는 실시간으로 에이전트의 성능을 모니터링할 수 있는 다양한 도구들을 가지고 있답니다.

이런 점 덕분에 전문가분들은 모델이 적절한 난이도 분포를 유지하고 훈련 중에 최적의 보상 신호를 받도록 계속해서 과제를 제시할 수 있습니다. LabelBox는 거의 모든 분야에서 이런 작업을 수행할 수 있어요. 헤지 펀드 매니저, 영상의사, 심지어 항공사 조종사분들도 활용하고 계십니다.

지금 작업하고 계신 어떤 일이든 LabelBox가 도와드릴 수 있습니다. labelbox.com slash thorkhesh에서 자세한 내용을 확인해 보세요.

이전 챕터What exactly are we scaling?

다음 챕터Is continual learning necessary?

읽기 설정