Scriptum

구체적인 예측으로 돌아가 보겠습니다. 다양한 요소를 명확히 해야 하기 때문에, 기능에 대해 이야기할 때 서로 엇갈리기 쉬울 수 있습니다. 예를 들어, 3년 전 인터뷰했을 때, 3년 후 무엇을 기대해야 할지 예측해 달라고 물었습니다.

그리고 제가 생각하기에 당신이 말씀하신 대로였던 것 같아요. 저희는 그 시스템들이 한 시간 동안 대화했을 때, 일반적으로 교육을 잘 받은 사람과 구별하기 어려울 거라고 예상해야 할 것 같습니다.

네, 말씀하신 대로였던 것 같아요. 그리고 저는 영적으로도 만족스럽지 않다고 느껴요. 왜냐하면 내부적으로는 이 시스템이 사무직 업무의 상당 부분을 자동화할 수 있을 거라고 기대했었기 때문입니다.

그래서 어떤 시스템이 실제로 갖춰야 할 기능에 대해 이야기하는 것이 더 생산적일 수도 있겠네요. 제가 어디에 있다고 생각하는지, 기본적인 말씀을 드리겠습니다.

제가 좀 더 구체적인 질문을 드려서, 어떤 기능들을 조만간 회수해야 하는지 정확히 파악할 수 있기를 바랍니다.

음, 어쩌면 제가 잘 이해하는 직무의 맥락에서 질문을 해볼까 합니다. 가장 관련 있는 직무는 아니지만, 그 주장을 평가해볼 수 있기 때문입니다. 예를 들어 영상 편집자를 말씀드리면, 그렇죠?

저희 영상 편집팀이 있습니다. 그들의 업무 중 일부는 저희 시청자분들의 선호도를 파악하고, 제 취향과 기호, 그리고 저희가 고려해야 하는 다양한 상충 관계를 이해하며, 오랜 시간 동안 이것을 구축해 나가는 것을 포함합니다.

맥락에 대한 이해가 중요합니다. 그리고 직무 시작 6개월 정도 후에 습득할 수 있는 기술이나 역량을, 즉 직무 중에 실시간으로 습득할 수 있는 모델은 언제쯤 기대할 수 있을까요? 음, 말씀하시는 게 어떤 면에서, 지금 이 인터뷰를 하고 있는 상황처럼…

음, 약 세 시간 동안 작업하시고 나서, 아시다시피 누군가가 들어와서 편집을 할 거예요. 그러면 아마 '이 부분은 좀 수정해야겠네요' 이런 얘기를 하실 거예요. 아니면 다리오 씨가 머리를 긁적이는 장면이 있는데, 그 부분은 빼고, 다른 부분은 좀 더 크게 보여줄 수도 있겠죠. 음, 굉장히 긴... 장면이 있었어요.

음, 이런 식으로 계속 길게 이야기하는 건 사람들이 덜 흥미를 느낄 수 있고요. 그래서 다른 더 흥미로운 걸 찾아보는 게 좋을 것 같아요. 뭐, 아시다시피 편집을 조금 해보려고 합니다. 음, 저는 데이터 센터에 천재들이 있는 그런 나라가 가능할 거라고 생각합니다.

그렇게 하려면, 컴퓨터 화면에 대한 전반적인 제어 권한을 갖게 될 것입니다. 아시겠지만, 예를 들어, 거기에 필요한 정보를 입력하면, 그것이 또한...

컴퓨터 화면을 보고, 웹사이트에 접속하여, 이전 인터뷰들을 확인하시고, 트위터에서 인터뷰에 대한 사람들의 반응을 살펴보시고, 대화를 나누거나 질문을 주실 수 있습니다.

질문하시고, 직원분들과 상의하시고, 하셨던 편집 내역을 살펴보시고, 그걸 바탕으로 업무를 진행하시면 될 것 같습니다. 여러 가지 요인에 따라 달라질 수 있다고 생각합니다.

음, 그것은 의존적이고, 제가 생각하기로는 이것이 실제로 배포를 막고 있는 것 중 하나인 것 같습니다. 컴퓨터 사용에 있어서, 모델들이 컴퓨터를 정말 능숙하게 활용할 수 있는 지점에 도달하는 것을 방해하고 있습니다.

맞죠? 그리고, 아시다시피 벤치마크 지표들이 꾸준히 상승하는 것을 보아왔는데, 벤치마크는 항상, 음, 완벽한 척도는 아니지만, 전 세계적으로, 음, 약 5%로 변동하는 것을 알 수 있습니다.

음, 아시다시피, uh, 기억하기론 저희가 처음 컴퓨터를 출시한 게, uh, 대략 1년 하고 4분 정도 되었던 것 같은데, 그때는 아마 15명 정도였던 것 같아요. 정확히 기억은 안 나지만, 지금은 65명 정도까지 늘어났습니다.

음, 대략 70퍼센트 정도이고, 혹시 더 강력한 조치들이 있을 수도 있겠지만, 저는 컴퓨터 사용이 어느 정도 신뢰성을 확보해야 한다고 생각합니다. 혹시 그 점에 대해 추가적으로 질문 여쭤봐도 될까요? 다음 주제로 넘어가시기 전에요.

다음 주제로 넘어가겠습니다. 사실 저는 수년간 저를 위해 다양한 내부 LLM 도구를 개발하려고 노력해 왔습니다. 그리고 종종 텍스트 입력과 텍스트 출력을 통해 특정 업무를 처리해야 하는 상황이 발생하는데, 그 업무들은 부채와 관련되어 있습니다.

이러한 모델들의 레퍼토리에 이미 포함되어 있음에도 불구하고, 여전히 인간을 고용하여 처리합니다. 왜냐하면, 텍스트에서 가장 적절한 클립을 식별하는 것처럼, 인간만이 수행할 수 있는 부분이 있기 때문입니다.

아마 그분들은 10점 만점에 7점 정도의 결과물을 내실 텐데요. 하지만 인간 직원에게 해줄 수 있는 방식으로, 그분들이 업무를 더 잘 수행하도록 지속적으로 도움을 드릴 수 있는 방법은 없을 것 같습니다.

만약 컴퓨터 사용이 제 능력을 방해해서 실제로 업무를 위임하는 것을 막는다면, 이는 저희가 이야기했던 내용과 관련된 부분인 것 같습니다. 다시 말해서, 어떤 방식으로 업무를 분담하는지에 대한 이야기로 돌아오는 것 같습니다.

이전에 실무를 배우면서 흥미로웠던 경험이 많았는데요. 코딩 에이전트 같은 경우에는 실무 학습이 어떨 것 같으세요? 사람들은 아마 실무 학습이 어떤 것인지 그렇게 생각하지 않을 것 같아요.

아시겠지만, 코딩 에이전트들이 모든 과정을 끝까지 처리하는 것을 막는 것이 중요합니다. 계속해서 성능이 좋아지고 있으니까요. 저희 Anthropic에도 코드를 전혀 작성하지 않는 엔지니어들이 있습니다.

그리고 생산성 측면에서, 방금 질문하신 내용에 대해 말씀드리면, 제가 이 GPU 커널, 이 칩을 예전에 직접 코딩했던 적도 있습니다.

클로드를 그냥 시키거든요. 그래서 생산성이 엄청나게 향상되는 것 같아요. 그리고 제가 클로드가 코딩하는 걸 보면, 코드 베이스에 대한 익숙함이나 이런 것들이 느껴져요.

아, 모델이 회사에서 1년 동안 일한 경험이 없다는 느낌이랄까, 그런 불만이 우선순위가 높지는 않아요. 그래서 제가 말씀드리고 싶은 건, 저희는 조금 다른 길을 걷고 있는 것 같아요.

코딩을 하다 보면, 코드 베이스 내에 존재하는 일종의 외부적인 기억 구조 덕분이라는 생각이 듭니다. 이 독특한 장점 덕분에 다른 분야보다 코딩 작업이 빠르게 진행되는 경우가 많다고 생각하는데, 그 원리가 정확히 무엇인지는 잘 모르겠습니다.

하지만 그렇게 말씀하시면, 제가 코드 베이스를 맥락에 맞춰 이해함으로써 직무를 수행하는 데 필요한 모든 지식을 습득했다는 의미로 해석될 수 있겠네요.

그것은 글이 쓰여 있는지, 이용 가능한지 여부와 같이, 필요한 모든 정보를 맥락 창에서 얻을 수 있는 경우의 예시라고 할 수 있겠네요, 맞습니까?

음, 저희가 학습이라고 생각하는 것, 예를 들어, 아, 제가 이 일을 시작했는데요.

코드 베이스를 이해하는 데 여섯 달이나 걸릴 텐데, 모델은 맥락 안에서 바로 해냈어요. 네, 솔직히 말씀드리면 제가 어떻게 생각해야 할지 잘 모르겠어요. 왜냐하면 어떤 분들은 말씀하시는 내용을 질적으로 보고 말씀하시거든요.

작년에 보셨을 법한 미터 연구가 있었죠. 네, 개발 경험이 풍부한 분들이 익숙한 저장소의 풀 리퀘스트를 종료하는 실험을 진행했었죠.

그 개발자분들은 성능 향상을 보고했다고 말씀하셨습니다. 이러한 모델들을 사용하면서 생산성이 더 높아졌다고 느끼셨다고 보고했습니다.

사실 좀 더 자세히 살펴보면, 그들의 결과물이 얼마나 다시 통합되었는지 볼 때, 20% 정도의 개선이 있었습니다.

이러한 모델들 때문에 생산성이 떨어지는 결과가 나타났습니다. 그래서 제가 사람들과 이러한 모델들에 대해 느끼는 주관적인 감정과 거시적인 관점에서, 소프트웨어의 일종의 부흥이 어디에 나타나는지를 연결해 보려고 노력하고 있습니다.

그리고, 두 번째로, 사람들이 이러한 개별적인 평가를 할 때 왜 우리가 기대하는 생산성 향상이 나타나지 않는 걸까요?

앤쓰로픽 내부적으로는 굉장히 명확하다고 생각합니다. 저희는 엄청난 상업적 압박을 받고 있습니다. 게다가 저희 스스로 난이도를 높이는 건데, 다른 회사들보다 안전에 훨씬 더 많은 노력을 기울이고 있다고 생각합니다.

그러니까, 경제적으로 살아남으면서 동시에 저희의 가치관을 지켜야 하는 압박감이 정말 엄청난 것 같아요, 그렇죠?

그 성장의 10배 곡선을 유지하려고 노력하고 있는데, 생산성이 낮다고 느껴질 틈이 전혀 없네요. 마치 이런 도구들처럼요.

경쟁사들이 도구를 사용할 경우 생산성이 훨씬 높아질 수 있다는 점이 우려되는 이유가 무엇일까요? 저희는 경쟁사보다 앞서 나가고 있다고 생각하며, 경쟁사들이 해당 도구를 사용하지 않기를 바랍니다.

만약 이것이 몰래 우리의 생산성을 감소시키고 있다면, 우리가 이 모든 번거로움을 겪고 있지는 않을 겁니다.

모델 출시 형태로 몇 달마다 생산성 향상이 보입니다. 솔직히 말씀드리지만, 모델 덕분에 생산성이 더 높아지는 건 분명한 사실입니다.

첫째, 사람들이 생산성이 더 높아진다고 느끼는 것은 이런 연구들에서 질적으로 예측되는 것입니다. 하지만 둘째로, 최종 결과물을 보면, 여러분은 분명히 빠른 속도로 발전하고 있습니다.

하지만 재귀적 자기 개선이라는 아이디어는 더 나은 인공지능을 만드는 것이고, 그 인공지능이 다음 단계의 더 나은 인공지능을 구축하도록 돕는다는 개념입니다. 이런 식으로 계속 반복되는 것이죠.

제가 보기에, OpenAI나 DeepMind와 같은 곳들을 보면, 사람들은 몇 달마다 발표 자리만 옮겨 다니는 것처럼 보입니다.

아마 성공했다고 멈춘다고 생각하실 수도 있겠죠. 그런데 왜 최적의 코딩 모델을 가진 사람이, 실제로 마지막 코딩 모델에서 엄청난 생산성 향상이 있다고 한다면, 그 지속적인 이점을 누리지 못하는 걸까요?

아니요, 아니요, 아니요. 제가 생각하기에는 상황에 대한 제 모델은 점차 커지는 이점이 있다고 보는 것 같아요.

지금 말씀드리자면, 코딩 모델이 전체적인 작업 속도를 15에서 20% 정도 향상시키는 것 같습니다.

제가 그렇게 생각해요. 그리고 6개월 전에는 5% 정도였고, 그래서 중요하지 않았어요.

5% 정도는 등록되지 않는 것 같습니다. 지금은 여러 가지 요인 중 하나 정도로 중요하게 작용하는 수준에 이르렀고, 이러한 속도는 계속 빨라질 것 같습니다.

그러고 보니, 6개월 전쯤에는 여러 회사들이 비슷한 수준에 있었던 것 같아요. 왜냐하면 이 요소가 눈에 띄는 변수는 아니었거든요. 하지만 이제는 점점 더 빠르게 진행되는 것 같습니다.

아시겠지만, 모델을 개발해서 코딩에 활용하는 회사들이 여러 군데 있습니다. 그리고 저희가 다른 회사들이 내부적으로 저희 모델을 사용하지 못하게 완벽하게 막지는 못하고 있습니다.

음, 아시다시피, 제가 생각하기에는 저희가 보고 있는 모든 것이 일종의 눈덩이 모델과 일관성이 있는 것 같아요. 그렇죠, 딱 잘라 말할 만한 기준은 없고요.

음, 제가 말씀드리고 싶은 부분은, 전체적으로 부드러운 상승 곡선을 그리고 있다는 점입니다. 지수 함수처럼 급격하게 치솟지는 않지만, 비교적 완만한 증가세를 보여주고 있습니다.

그래서 저희가 눈덩이처럼 점점 더 굴러가는 걸 보고 있어요. 10%, 20%, 25%, 있잖아요, 40% 정도 되는 거죠. 그리고 계속 진행될수록 아말드의 법칙처럼, 루프를 닫는 걸 방해하는 모든 것들을 치워야 합니다.

하지만 엔트로픽 내에서 매우 중요한 우선순위 중 하나입니다.

음, 잠시 뒤로 물러서서 생각해보니, 스택에서 말씀하셨던 내용이 기억나네요. 직무 교육은 언제 받을 수 있는지, 그리고 코딩 관련해서 하신 말씀은… 코딩에 대한 부분이신 것 같습니다.

사실 직무 교육을 필수로 여기지 않아도 됩니다. 엄청난 생산성 향상을 가져오고, 인공지능 회사들이 잠재적으로 조 단위의 수익을 창출할 수도 있습니다. 어쩌면 이것이 여러분의 주장이 아닐 수도 있고, 명확히 해주셔야 할 수도 있지만, 직무 교육을 통해 학습하는 기본적인 인간의 능력 없이는 불가능할 수도 있습니다.

흠, 경제 활동의 대부분의 분야에서 보면, 사람들은 제가 누군가를 채용했을 때 처음 몇 달 동안은 큰 도움이 되지 않았다고 말씀하시더라고요. 하지만 시간이 지나면서 맥락 이해도가 점차 향상되는 경우가 많습니다.

여기서 우리가 얘기하는 게 정확히 뭘까요, 정의하기는 좀 어렵네요. 그런데 그들은 어떤 것을 얻었고요, 이제는 굉장한 중추적인 역할을 하고, 저희에게 정말 귀중한 존재가 됐습니다.

만약 인공지능이 상황에 맞춰 실시간으로 학습하는 능력을 갖추지 못한다면, 세상에 큰 변화가 일어날 가능성에 대해 조금 회의적입니다.

네, 음, 제가 생각하기로는 여기 두 가지 측면이 있는 것 같습니다. 그렇죠? 현재 기술의 수준인데, 다시 말씀드리지만, 저희는 이 두 단계를 거치고 있습니다.

모델에 많은 양의 데이터와 과제를 투입하여 사전 훈련 및 강화 학습 단계를 거치면, 모델이 일반화됩니다.

데이터를 통해 학습하는 것과 비슷하지만, 한 명의 인간이나 하나의 모델의 수명 동안 학습하는 것이 아니라 훨씬 많은 데이터를 통해 학습하는 방식이라고 할 수 있습니다.

그래서, 다시 한번 말씀드리지만, 이건 진화와 인간의 학습 사이에 위치하고 있습니다. 하지만 일단 그 기술들을 모두 배우면, 그걸 갖게 되는 거죠.

사전 학습과 마찬가지로, 모델들이 얼마나 더 많은 것을 알고 있는지, 예를 들어 사전 학습된 모델을 보면, 저보다 일본 사무라이 역사에 대해 더 잘 알고 있는 것 같습니다.

저것은 제가 아는 것보다 야구에 대해서 훨씬 더 잘 알고 있어요. 음, 아시다시피, 저것은 야구에 대해서도 많이 알고, 그리고 저역 통과 필터나 전자 제품에 대해서도 많이 알고 있답니다.

아시겠지만, 이 모든 것들에 대해서요. 모델 지식이 제 것보다 훨씬 넓어요. 그래서 단순히 이것만으로도 모델이 모든 면에서 더 잘하게 되는 지점에 도달할 수 있을 거라고 생각해요.

그리고 또 하나, 기존 설정을 확장하는 것만으로도, 문맥 내 학습이라는 것이 가능합니다. 저는 이것을 일종의 현장 학습과 비슷하다고 묘사하고 싶습니다만, 조금 약하고 단기적이라는 차이가 있습니다.

맥락 학습을 살펴보시는 것처럼, 모델에게 여러 예시를 제공하면 모델이 이해하게 됩니다.

맥락 속에서 진정한 배움이 일어납니다. 그리고 백만 토큰은 상당히 많은 양이죠.

음, 그러니까, 사람의 학습에 며칠이 걸릴 수도 있죠, 아시죠? 모델을 생각해보면, 모델이 대략 백만 단어를 읽는다고 할 때, 제가 백만 단어를 읽는 데 얼마나 걸릴까요?

음, 아시다시피, 며칠 또는 몇 주 정도 걸릴 거예요. 그래서 이 두 가지가 있잖아요. 그리고 저는 이 두 가지가 기존 방식 안에서 충분히 데이터 센터의 천재들을 확보할 수 있게 해줄 거라고 생각해요.

정확히는 모르겠지만, 생각보다 훨씬 많은 부분을 얻게 될 거라고 생각해요. 약간의 빈틈은 있을 수도 있지만, 지금 있는 그대로의 상태로는 충분히 가능하다고 생각합니다.

삼천억 달러의 수익을 창출하는 데 충분하다고 생각해요. 그게 하나고요, 전부 하나예요. 두 번째는, 직무 중에 단일 모델이 지속적으로 학습하는, 그런 아이디어예요.

저희도 그거에 대해 함께 노력하고 있는 것 같습니다. 그리고 앞으로 1년 또는 2년 안에 저희도 그 문제를 해결할 가능성이 높다고 생각합니다.

글쎄요, 다시 한번 말씀드리지만, 아마 대부분은 그것 없이도 해내실 수 있을 거라고 생각합니다.

음, 연간 조 단위 달러 규모의 시장이, 제가 말씀드렸듯이 기술의 발전 과정에서 발생할 수 있는 국가 안보 및 안전 관련 문제들이 발생하지 않더라도 충분히 가능하다고 생각합니다.

저도 그렇다고 생각하고, 다른 분들도 함께 노력하고 계실 거라고 생각합니다.

그리고 제가 생각하기에는, 앞으로 1년 또는 2년 안에 그 목표에 도달할 가능성이 꽤 높다고 생각해요. 여러 가지 아이디어가 있는데, 자세히 말씀드리지는 않겠지만, 그중 하나는 컨텍스트 길이를 늘리는 것입니다.

더 긴 컨텍스트가 작동하는 걸 막을 건 아무것도 없어요. 그냥 더 긴 컨텍스트로 학습하고, 추론 시에 그걸 서빙하는 방법을 배우면 되는 거죠. 그리고 그 두 가지 모두 우리가 해결해 나가고 있는 엔지니어링 문제이고, 다른 분들도 함께 하고 계실 거라고 생각해요.

네, 그러니까 이 컨텍스트 라인 증가 현상은 2020년부터 2023년까지 GPT-3부터 GPT-4 Turbo까지, 2,000라인에서 128K로 증가하는 기간이 있었던 것 같아요. 그 이후로 대략 2년 정도는 비슷한 수준에 머물러 있는 것 같습니다.

네, 맞습니다. 그리고 맥락이 그보다 훨씬 길어질 경우, 모델이 전체 맥락을 고려하는 능력에 있어서 질적인 저하가 발생한다는 보고가 있습니다.

음, 제가 궁금한 건, 인간이 6개월 동안 학습하는 데 필요한 1000만 개의 문맥, 최대 10억 개의 문맥까지, 내부적으로 어떤 것을 보고 그렇게 생각하시는지 여쭤보고 싶습니다.

이건 연구 문제가 아니에요. 엔지니어링과 추론의 문제죠, 그렇죠? 만약 긴 컨텍스트를 제공하고 싶다면, KV 캐시 전체를 저장해야 해요.

기억을 GPU에 모두 저장하는 게, 메모리를 이것저것 관리하는 게 쉽지 않죠. 그 세부적인 내용은 제가 더 이상 따라갈 수 없을 정도로 자세한 수준이에요.

물론, 제가 GPD3 시절부터 알고는 있었거든요, 이런 가중치들이요. 이 활성화 값들을 저장해야 하는데, 요즘은 MOE 모델 같은 것들 때문에 완전히 뒤바뀌었죠.

음, 그러니까, 말씀하시는 저하 현상 같은 경우, 너무 자세하게 들어가지 않고 질문을 하나 드려본다면, 두 가지 측면이 있다고 생각합니다. 하나는 학습하시는 컨텍스트 길이이고, 다른 하나는…

만약 짧은 컨텍스트 길이로 학습시킨 모델을 긴 컨텍스트 길이로 서비스를 제공하려고 할 때, 성능 저하가 발생할 수 있습니다. 무조건 아무것도 제공하지 않는 것보다는 나을 수도 있지만, 여전히 성능 저하가 있을 수 있으며, 긴 컨텍스트 길이로 학습시키는 것이 더 어려울 수도 있습니다.

네, 음, 길이 문제잖아요. 그러니까, 동시에 궁금한 점이 좀 있는데, 마치 래빗홀처럼, 예를 들어 더 긴 컨텍스트 길이로 학습을 해야 한다면, 같은 양의 데이터를 가지고 더 적은 샘플을 얻을 수 있지 않을까요? 생각해보면요.

계산 부분에 대해서는 일단 좀 더 자세히 파고들 필요가 있을지 아직 잘 모르겠어요. 큰 그림을 보는 질문에 답을 얻고 싶어서요. 음, 인간 편집자에 대한 선호도가 느껴지지 않네요.

제가 여섯 달 동안 일해 온 사람과 여섯 달 동안 저와 함께 일해 온 인공지능을 비교하는 것과 같습니다. 언제쯤 그렇게 될 거라고 예상하시나요?

저, 음, 제가 말씀드리면, 아시다시피, 제 생각으로는, 음, 여러 가지 문제들이 있는데, 결국은 천재들이 모여 있는 데이터 센터를 갖춰야 가능한 일이라고 생각합니다.

음, 그리고, 아시다시피, 제 생각으로는, 글쎄요, 만약 제가 짐작하라고 한다면, 대략 1년에서 2년 정도, 혹은 1년에서 3년 정도 될 것 같습니다. 정확히 말씀드리기가 정말 어렵습니다.

음, 제가 생각하기로는 이 모든 일이 10년 안에 일어날 가능성이 99%, 95% 정도라고 봅니다. 제 생각에는 정말 믿을 만한 예측이라고 생각합니다.

음, 그런 다음 제 생각에는 이런 게 좀 50/50일 것 같다는 느낌이 들었는데, 오히려 1대2 정도, 혹은 1대3 정도가 아닐까 싶어요. 그러니까 1년에서 3년 정도 되는 기간이랄까요. 천재 국가에서 말씀하시길, 그리고 약간 경제적으로 가치가 덜한 편집 작업 같은 것들을 하시는 거죠.

상당히 경제적으로 가치 있어 보여요. 제가 말씀드릴게요. 이런 식으로 활용될 수 있는 경우가 정말 많거든요, 그렇죠? 비슷한 경우도 많이 있잖아요...

이전 챕터Is diffusion cope?

다음 챕터If AGI is imminent, why not buy more compute?

읽기 설정