읽기 설정

최근 쿼드(Quad)가 특정 가치에 부합하는 헌법을 갖게 될 것이며, 단순히 최종 사용자에게만 맞춰지는 것은 아닐 것이라는 발표를 하셨습니다.

상상해 볼 수 있는 세상이 있습니다. 만약 그것이 최종 사용자와 일치한다면, 오늘날 세계가 가진 힘의 균형을 유지할 수 있을 것입니다. 왜냐하면 누구나 자신을 대변하는 AI를 가지게 될 수 있기 때문입니다.

그래서 악의적인 사용자 비율과 선의적인 사용자 비율이 현재와 같이 일정하게 유지됩니다. 오늘날 우리의 세상에 괜찮게 작동하는 것 같아요. 왜 그렇게 해서는 안 되고, AI가 앞으로 나아갈 특정 가치 세트를 갖는 것이 더 나은 걸까요?

네, 제가 그렇게 명확하게 구분을 지었다고 생각지는 않는데요. 아마 두 가지 관련되는 구분이 있을 것 같은데, 두 가지를 혼합해서 말씀하시는 것 같아요.

음, 하나는, 모델에게 무엇을 해야 하고 무엇을 하지 말아야 하는지에 대한 지침을 제공해야 할지, 그리고 다른 하나는, 아시다시피, 모델에게 어떤 원칙들을 제시하여 행동하는 방식을 안내해야 할지, 그런 고민이 되겠네요.

그리고 거기서는, 음, 그냥, 일종의 순수한 실용적이고 경험적인 관찰이라고 할 수 있는데, 모델에게 원칙을 가르치고, 이를 통해…

원칙에 따라 학습하면, 그 행동 양상이 더 일관적이고, 예외적인 경우를 처리하기도 쉽습니다. 또한 모델이 사람들이 원하는 대로 작동할 가능성이 더 높습니다.

음, 다시 말해서, 안다면요, 아시다면, 그러니까 차를 강제로 시동을 거는 방법을 알려드리면 안 되고, 한국어로 말씀하시면 안 되고, 아시죠, 아시죠, 그냥 아시죠, 규칙 목록을 준다고 해도, 그걸 정말 이해하지 못하는 것 같아요.

음, 그들로부터 일반화하기가 좀 어렵습니다. 아시다시피, 그냥 해야 하는 것과 하지 말아야 하는 것들의 목록이라면 말이죠. 반면, 원칙을 제시하고, 어느 정도의 엄격한 제한을 둔다면요.

생물학 무기를 만들지 않는 것은 좋지만, 전반적으로는 그것이 목표로 해야 할 일, 어떻게 작동해야 하는지를 이해하려고 노력하시는 것입니다.

실용적인 관점에서는, 모델을 훈련하는 더욱 효과적인 방법이 됩니다. 이것이 한 가지 부분이고요. 그러니까, 규칙과 원칙의 균형이라는 그런 문제가 있습니다.

음, 또 다른 말씀이 있으신 것 같은데, corrigibility와, 음, 어떤 본능적인 동기 부여 사이의 균형, 이라고 할까요? 모델이 어느 정도까지 수정 가능해야 하는지에 대한 문제인 것 같습니다.

음, 잘 모르겠어요. 마치 피부처럼 덮어씌운 듯한, 아시는지 모르겠지만, 누군가가 내리는 지시사항을 거의 그대로 따르는 그런 느낌이랄까요. 좀 그런 것 같아요.

지침과 모델이 자체적으로 가져야 할 가치관을 기반으로 스스로 행동하는 정도 사이의 균형을 어떻게 맞출 것인지가 중요합니다.

거기서 저는 모델에 관한 모든 것이 사람들의 바람에 좀 더 부합하는 방향으로 나아간다고 말씀드리고 싶습니다.

대체로 이런 방향으로 따라야 해요. 저희는 세상 전체를 알아서 통제하는 그런 걸 만들려고 하는 게 아니에요. 저희는 수정 가능성이 높은 편에 속하고 있어요. 그런데, 지금 말씀드리는 건 모델이 절대 하지 않을 일들이 있다는 거죠?

음, 그러니까, 헌법에 여러 가지 방식으로 표현되어 있지만, 일반적인 상황에서 모델에게 어떤 업무를 요청하면 그 업무를 수행해야 한다는 점이죠.

그것이 기본 설정이 되어야 합니다. 하지만, 혹시 위험한 일을 시켰거나, 다른 사람을 해치도록 요청했다면요.

그러면 모델이 그런 작업을 수행하기를 꺼려하게 됩니다. 저는 이 모델을 대체로 수정 가능하지만 한계가 있는 모델이라고 생각하는데, 그 한계는 원칙에 기반하고 있다고 생각합니다. 네.

음, 그렇다면 근본적인 질문은 그 원칙들이 어떻게 결정되는가인데, 이건 Anthropic에게만 특별한 질문이 아니라, 어떠한 AI 회사에게나 던질 수 있는 질문입니다. 다만, 여러분이 실제로 그 원칙들을 명시해 놓았기 때문에 더 그렇습니다.

질문을 드려도 될까요? 보통 헌법은, 적으시면 돌에 새겨진 것처럼 되고, 수정하고 변경하는 절차가 있는 겁니다.

이 경우, Anthropic에서 작성하는 것으로 보이는, 언제든 변경될 수 있는 시스템 행동 지침 문서가 많은 경제적 기반을 형성할 것으로 보입니다.

액티비티가 무엇이고, 어떻게 생각하시는지, 그리고 그런 원칙들이 어떻게 설정되어야 하는지 질문하신 거네요. 네, 음… 저는 크게 두 가지, 아니면 세 가지 정도로 생각할 수 있을 것 같습니다. 세 가지 크기의 루프가 있고, 세 가지 방법으로 반복할 수 있을 것 같아요.

한 가지 방법은 반복하는 것입니다. 저희는 Anthropic 내에서 반복 작업을 진행합니다. 모델을 훈련시키고, 만족스럽지 않다고 판단합니다.

그리고 저희는 헌법을 조금씩 수정하기도 하고, 그렇게 하는 게 좋다고 생각해요. 그리고, 음, 공개적으로 헌법을 발표하고, 가끔씩 헌법 업데이트를 하면서 '새로운 헌법이 여기 있습니다'라고 하는 것도 괜찮다고 생각합니다.

저는 그렇게 하는 게 좋다고 생각해요, 왜냐하면 사람들이 거기에 의견을 달 수 있거든요. 두 번째 루프 레벨은 서로 다른 회사들이 서로 다른 헌법을 갖게 되는 거죠. 그리고, 아시겠지만, 저는 Anthropic 같은 회사에서 헌법을 발표하고, Gemini 모델도 헌법을 발표하는 것처럼, 그런 게 유용하다고 생각해요.

헌법을 제정하고, 다른 회사들도 헌법을 발표하는 경우도 있죠. 그러면 외부 전문가들이 비교하고 검토하면서 어떤 부분은 좋고 어떤 부분은 개선해야 한다고 평가할 수 있습니다.

이 조항은 이 헌법과 관련되어 있고, 저 조항은 저 헌법과 관련되어 있고, 그런 식으로 일종의 부드러운 인센티브와 피드백을 모든 회사들이 받아들일 수 있도록 만드는 것 같습니다.

각 요소들의 최상위 요소들을 취합하고 개선하는 것이 중요하다고 생각합니다. 그리고 나서, 인공지능 회사들을 넘어, 또 권력 없이 헌법에 대해 의견을 표하는 사람들, 즉 사회 전체를 아우르는 세 번째 루프가 필요하다고 생각합니다.

저희는 그곳에서, 음, 여러 실험들을 진행해 봤습니다. 예를 들어, 2년 전쯤에는 '집단 지성 프로젝트'라고 불렸던 실험을 진행했는데, 간단히 말해서 사람들에게 AI 헌법에 무엇이 들어가야 하는지 여론을 조사하고 의견을 구하는 것이었습니다.

음, 그때 저희가 그 변화들 중 일부를 반영했던 것 같습니다.

헌법에 대한 새로운 접근 방식을 취하게 되면서, 그러한 일들을 실행하는 것이 조금 더 어려워졌습니다. 이전에는 헌법이 해야 할 일과 하지 말아야 할 일을 나열하는 형태로 있었기 때문에, 그 당시에는 실제로 좀 더 쉬운 접근 방식이었습니다.

원칙 수준에서는 어느 정도 일관성이 있어야 해요. 하지만 여전히 다양한 사람들의 의견을 수렴할 수 있을 거라고 상상해 볼 수 있겠죠.

그리고 제가 생각하는 건, 또 엄청나게 황당한 아이디어일 수도 있지만, 있잖아요, 이 인터뷰 자체가 황당한 아이디어에 대한 건데, 있죠? 그래서, 예를 들어 대표적인 정부 시스템 같은 것들도 의견을 낼 수 있다고 상상해 볼 수도 있겠죠.

음, 솔직히 말씀드리면, 지금은 입법 과정이 너무 늦어서 아마 이걸 실행하지는 않을 것 같아요. 바로 그래서 저는 입법 과정과 AI 규제에 대해 조심해야 한다고 생각하는 것 같습니다.

하지만 원칙적으로 말씀드린다면, 모든 인공지능 모델은 이러한 내용으로 시작하는 헌법을 갖춰야 한다고 말씀하실 수도 있을 겁니다.

그리고 나서 그 뒤에 다른 것들을 추가하실 수 있지만, 우선적으로 적용되는 특별한 영역이 반드시 존재해야 합니다.

그렇게 하는 건 너무 경직돼요, 저는 안 할 것 같아요. 마치 지나치게 공격적인 법안처럼 너무 자세하게 규정하는 느낌이 들 수 있지만, 시도해 볼 만한 방법이 될 수도 있겠네요.

그것의 덜 직설적인 표현이 있을까요?

아마도요. 제게는 두 번째 제어 루프가 특히 마음에 듭니다. 명백히 말씀드리지만, 실제 정부의 헌법은 이와 같이 작동하지 않거나, 그래야 할 이유도 없습니다. 최고 법원이 대중의 감정을 어렴풋하게 파악하는, 그런 모호한 느낌이 없어야 하는 것이죠.

그리고 분위기는 어떤지 파악한 뒤, 그에 맞춰 헌법을 수정해야겠죠. 실제 정부에서는 절차적인 과정이 좀 더 명확하게 진행됩니다.

하지만 경쟁하는 헌법들의 구상이라는, 상당히 자유주의적 헌법 도시 지지자들이 다양한 형태의 정부들이 흩어져 있는 군도 국가가 어떻게 보일지 이야기했던 방식과 매우 흡사한 면모가 있습니다. 그리고 거기에서 선택이 이루어질 것입니다.

누가 가장 효율적으로 운영할 수 있을까, 그리고 어디에서 사람들이 가장 행복할까, 하는 그런 경쟁이 있는 거죠. 어느 정도는, 네, 제가 그 비전을 재현하고 있는 것 같아요.

네, 네, 마치 이렇게 섬들로 이루어진 이상향처럼요, 아시죠. 다시 한번 말씀드리지만, 저는 그 비전에도 칭찬할 만한 점이 있고, 또 예상치 못한 문제가 발생할 수도 있다고 생각합니다. 물론, 저는 그렇게 생각합니다.

음, 여러모로 흥미롭고 설득력 있는 비전이라고 생각하지만, 예상치 못한 문제들이 발생할 수도 있을 겁니다. 물론 루프 투도 좋다고 생각하지만, 어… 그런 느낌이 듭니다.

전체적으로는 아마 두 번째와 세 번째 루프를 적절히 섞은 결과일 것 같습니다. 비율이 핵심이라고 생각합니다. 음, 아마 그게 답일 거예요. 언젠가 누군가가 이걸 제대로 쓰게 되면요.

이 시대에 원자 폭탄 개발과 맞먹을 만한 일을 고려할 때, 역사적 기록에서 가장 파악하기 어렵고, 그들이 가장 놓칠 만한 것은 무엇일까요?

생각해야 할 게 몇 가지 있어요. 하나는, 이 기하급수적인 발전의 모든 순간에 있어서, 세상이 그걸 얼마나 이해하지 못했느냐 하는 거예요. 이건 역사를 볼 때 흔히 나타나는 편향이에요. 실제로 일어난 일은 되돌아보면 당연해 보이는 경향이 있다는 거죠.

음, 글쎄요, 제가 생각하기에는 사람들이 뒤돌아보면, 그 상황에 공감하기가 쉽지 않을 것 같아요.

이런 일이 실제로 일어날 거라고 사람들이 내기를 거는 곳, 그곳에서 우리가 이런 논쟁을 벌이는 것이 피할 수 없었다고 생각하지 않았습니다. 마치 제가 스케일링이나 지속적인 학습이 해결될 것이라고 주장하는 논쟁처럼요.

음, 있잖아요, 우리 중 일부는 머릿속으로 이 일이 일어날 가능성이 높다고 생각하긴 하지만, 우리 밖에는 우리가 생각하는 대로 움직이지 않는 세상이 있는 것 같아요. 전혀요.

음, 저는 그 특이한 점이, 아시다시피 폐쇄적이라고 생각해요. 만약 우리가 하나라면...

앞으로 1년 혹은 2년 정도 후에 실제로 일어날 일인데, 일반적인 사람들은 전혀 모르고 있습니다. 제가 메모를 통해, 정책 결정권자들과 대화를 시도하면서 이것을 바꾸려고 노력하는 것 중 하나입니다. 하지만 잘 모르겠습니다. 아마도, 그런 일들이 일어날 가능성이 정말 엄청나다고 생각합니다.

네, 음, 드디어 말씀드리겠습니다만, 아마 거의 모든 역사적인 위기 상황에 적용될 수 있는 부분인데, 그 변화가 얼마나 빠르게 일어나는지, 그리고 모든 것이 한꺼번에 일어나는지 정말 놀랍습니다.

그리고 혹시 신중하게 계산된 것처럼 생각될 만한 결정들도 사실은 그 결정을 내리고 나서 같은 날에 서른 개 정도의 다른 결정을 내려야 해요. 왜냐하면 모든 게 너무 빨리 진행되기 때문이죠. 그리고 어떤 결정이 중요하게 작용할지 전혀 모르는 경우도 있답니다.

음, 아시다시피, 제가 말씀드리면 걱정이랄까, 동시에 현재 상황에 대한 통찰이기도 한데, 중요한 결정이, 중요한 결정이 내려질 것 같습니다.

아, 있잖아요, 누군가가 제 사무실로 들어와서, 다리오 씨, 두 분 정도 시간이 있으세요, 라고 하는 거죠.

그러니까, 음, 이거 해야 하나, 말아야 하나, A를 해야 할까, B를 해야 할까, 이런 걸 갑자기 누군가 반 페이지짜리, 반 페이지짜리 메모를 줘요. 그리고 그거 해야 하나, 말아야 하나, A를 할까, B를 할까? 저는 잘 모르겠어요.

점심을 먹어야겠네요. B를 해봐요. 그리고, 에이, 아시죠, 결국 그게 가장 중요한 일로 이어지더라고요.

마지막 질문 드리겠습니다. 기술 CEO분들께서 보통 몇 달에 한 번씩 50페이지 분량의 보고서를 작성하시는 경우는 드문 것 같은데, 본인만의 역할을 구축하신 것 같습니다.

주변에 이처럼 지적인 역량을 필요로 하는 CEO 역할에 적합한 기업이 있을 것입니다.

그리고 제가 그게 어떻게 구성되는지, 또 어떻게 작동하는지 이해하고 싶습니다. 마치 한두 주 정도 외근하셨다가 회사에 이런 내용의 메일을 보내시는 것처럼요. ‘이것이 우리의 계획입니다’라고요. 내부적으로도 그런 보고서를 많이 작성하시는 것 같기도 하고요. 하여튼, 이번 경우에는요.

알고 계시겠지만, 겨울 방학 때 썼던 글입니다. 음, 시간을 내서 실제로 써내려가기가 쉽지 않았던 때가 있었어요. 하지만 이 내용을 좀 더 넓게 보면, 회사 문화와도 관련이 있다고 생각해요. 아마 제가 꽤 많은 시간을 보냈을 겁니다.

제 시간의 아마 40% 정도를 Anthropic의 문화가 잘 유지되도록 관리하는 데 사용하고 있습니다. Anthropic가 성장하면서, 직접적으로 관여하기가 점점 더 어려워졌습니다.

모델 훈련이나 모델 출시, 제품 개발과 같은 일들을 보면, 2500명이나 되는 인원이 참여하는 만큼, 제가 알다시피, 여러 가지 직감이 있지만, 모든 세부 사항에 관여하기는 매우 어렵습니다. 아시다시피요.

최대한 노력하는 것이 중요하지만, 무엇보다 중요한 건 Anthropic이 좋은 근무 환경을 제공하는 것입니다. 직원들은 그곳에서 일하는 것을 좋아하고, 모두 스스로를 팀의 일원으로 생각하며 서로 협력하고 경쟁하지 않습니다. 다른 기업들과 비교했을 때도 이러한 점은 분명히 엿볼 수 있습니다.

알고 계시는 것처럼, 특정 기업들을 언급하지 않더라도 현재는 일관성이 흐트러지고 서로 경쟁하는 현상이 나타나고 있습니다. 물론 처음부터 이러한 모습이 조금 있었던 것도 사실이지만, 심화된 측면이 있다고 생각합니다. 하지만, 저희는 정말로 훌륭하게 해냈다고 생각합니다.

완벽하지 않더라도 훌륭한 일을 하셨습니다. 회사를 지탱하고, 모든 사람이 사명감을 느끼게 하며, 저희가 사명에 대해 진지하게 생각하고 있다는 것을, 그리고 모두가 믿음을 갖게 하는 것, 정말 중요한 역할을 하셨습니다.

다른 곳에서는 사람들이 잘못된 이유로 일하거나, 팀워크가 안 되거나, 서로 책망하거나 뒤통수를 치는 경우가 많다고 생각하는데, 저희는 그런 일이 없도록 노력하고 있습니다. 그런 분위기를 어떻게 만들 수 있을까요?

글쎄요, 여러 가지가 있겠죠. 제가 있고, 데니엘라가 있잖아요. 아시다시피, 매일 회사 운영을 맡고 있고요. 공동 창업자분들도 계시고, 저희가 고용하는 다른 분들도 계시죠. 그리고 환경도 중요하답니다.

저희가 만들려고 노력하는 부분입니다. 하지만 문화적으로 중요한 것은 저를 포함한 다른 리더들도, 특히 저 스스로가 회사에 대해 무엇을 의미하는지, 그리고 왜 그런 일을 하고 있는지 명확하게 설명해야 한다고 생각합니다.

무엇을 하고 있는지, 그 전략은 무엇인지, 어떤 가치를 가지고 있는지, 사명은 무엇인지, 그리고 무엇을 지향하는지를 알아야 합니다.

그리고 직원 수가 2,500명에 이르면, 한 명 한 명에게 그렇게 전달할 수 없어요. 회사 전체에 글을 쓰거나, 아니면 회사 전체에 대해 이야기해야 해요. 그래서 제가 격주로 회사 전체 앞에서 한 시간 동안 연설하는 거랍니다.

사실 저는 내부적으로 에세이를 쓰는 편이라고 말하지 않을 거예요. 제가 하는 일은 두 가지가 있습니다. 하나는 제가 '다리오 비전 퀘스트'라고 부르는 것을 써요.

제가 이름을 지은 건 아니에요. 그냥 그렇게 불리게 됐죠. 그리고 제가 막 좀 반대하려고 했었던 이름이기도 해요. 마치 제가 뿅뿅 뭐하는 거 아니겠다고 생각하게 만들어서요.

하지만 그 이름은 그냥 굳어버렸어요. 그래서 저는 회사 임직원들 앞에 두 주에 한 번씩 나가서, 대략 삼사 페이지 분량의 자료를 가지고, 내부적으로 진행되는 여러 가지 주제에 대해 설명 드리는 편입니다.

저희가 생산하고 있는 모델들과 제품, 외부 업계, 그리고 AI와 관련해서 그리고 일반적으로 지정학적으로도, 여러 요소들이 복합적으로 작용하는 상황입니다.

그리고 저는 정말 솔직하게, 제가 생각하는 것을 그대로 말씀드리고 있습니다. 엔스롭의 리더십이 생각하는 바를 말씀드리고, 그 다음에 질문에 답변을 드립니다.

그리고 그 직접적인 연결은, 음, 전달 과정을 거쳐서 여러 단계, 예를 들어 여섯 단계까지 내려갈 때 얻기 힘든 상당한 가치가 있다고 생각합니다.

음, 에, 그리고, 아시다시피, 회사 직원들의 상당수가 직접 참석하거나 또는 온라인으로 참여합니다.

그리고, 아시다시피, 정말로 많은 것을 전달할 수 있다는 뜻이죠. 그리고 제가 하는 또 다른 일은 슬랙에 채널을 만들어 거기다가 여러 가지를 쓰고 많은 의견을 덧붙이는 거예요.

음, 그리고 종종 회사에서 제가 목격하는 일이나 사람들이 묻는 질문에 대한 응답인 경우가 많습니다. 아니면, 내부 설문조사를 진행할 때 사람들이 걱정하는 점들이 나타나기도 하고요. 그런 것들을 정리해서 기록하고 있습니다.

음, 저는 이런 부분에 대해 정말 솔직하게 말씀드리는 편이에요.

음, 저는 그냥, 저는 있는 그대로 말씀드리는 편입니다. 중요한 건 회사에 무슨 일이 일어나고 있는지 진실을 이야기하는 명성을 얻는 것입니다. 상황을 있는 그대로 표현하고, 문제점을 인정하며, 기업에서 쓰는 어려운 표현은 피하는 것이죠.

공공장소에서 종종 필요하게 되는 일종의 방어적 소통 방식인데, 아시다시피 세상은 워낙 넓고, 악의적으로 상황을 해석하는 분들도 많이 계시기 때문입니다.

하지만, 여러분을 신뢰하는 회사라면, 저희는 신뢰할 수 있는 사람들을 채용하려고 노력하잖아요. 그러면, 정말 솔직하게, 가감 없이 이야기할 수 있겠죠. 그리고, 솔직히 말씀드리면, 그게 회사로서 굉장한 강점이라고 생각합니다.

그것은 일할 수 있는 곳을 더욱 훌륭하게 만듭니다. 사람들을 그들의 개별적인 능력을 뛰어넘어 시너지 효과를 낼 수 있게 하고, 임무를 성공적으로 완수할 가능성을 높여줍니다. 왜냐하면 모든 사람들이 임무에 대해 같은 생각을 가지고 있고, 임무를 가장 효과적으로 완수하기 위한 방법들을 논의하고 토론하기 때문입니다.

음, 외부 다리오비전 퀘스트가 없으니, 인터뷰를 진행하게 되었습니다.

이 인터뷰가 조금 그런 느낌이에요. 다리오, 즐거웠어요. 해 주셔서 감사합니다. 네, 드라케시, 안녕하세요. 모두 즐겁게 들었기를 바라요.

만약 하셨다면, 가장 도움이 될 만한 일은 다른 사람들이 즐길 만하다고 생각되는 사람들과 공유하는 것입니다. 또한, 듣고 계신 플랫폼에서 평점이나 댓글을 남겨주시면 도움이 될 거예요.

팟캐스트 스폰서에 관심이 있으시다면, dwarkesh.com/advertise로 연락하실 수 있습니다. 아니면 다음 에피소드에서 뵙겠습니다.